「AI搜索」基准测评方案发布

文摘科技 2024-10-16 14:54 浙江

随着人工智能技术的迅速发展，AI搜索正在逐步改变人们获取信息的方式。虽然传统搜索引擎可以满足大部分需求，但在处理复杂查询、理解用户意图和提供个性化服务方面仍存在局限。AI搜索通过运用大数据分析、自然语言处理和机器学习等技术，更加精准地理解用户查询，并提供更丰富、个性化的搜索结果。

为了确保AI搜索技术的进步真正满足用户需求并推动行业创新，对其能力的测评变得尤为重要。为此，我们推出了 SuperCLUE-AISearch 测评方案，用于评估大模型在AI搜索中的表现。它不仅考察核心能力，包含丰富的场景应用，而且设置了多样化的挑战性问题进行考察。该方案能够为技术研发提供反馈，帮助开发者识别和优化模型的不足，推动建立行业公认的评价标准，促进AI搜索技术的健康持续发展。

排行榜地址：https://www.superclueai.com

# SuperCLUE-AISearch测评体系

SuperCLUE产品象限（AI搜索）效果图

1. 特点

（1）多维能力评估

测评方案全面覆盖多领域知识、信息检索与整合、分析与推理、语义理解与跨领域关联等核心能力，确保AI搜索模型在复杂任务中具备高效、精准的表现。

（2）结合场景化应用

通过教育、商业、文化、娱乐及科技等实际场景的应用测试，评估AI搜索的实用性和相关性，确保其在多种实际需求中表现出色并提供有价值的建议。

（3）严谨的评价标准

该方案设立了严格的知识准确性、逻辑性、时效性等评价标准，确保AI搜索技术不仅能准确获取和整合信息，还能提供逻辑清晰且有效的解决方案。

2. 测评任务

维度一：能力任务

评估AI搜索模型在知识覆盖、信息整合、推理分析、语义理解和最新信息获取方面的能力，确保其能处理复杂问题并提供准确、全面的答案。

1）多领域知识覆盖与准确性

评估AI搜索在各个领域内的知识掌握水平，要求模型具备广泛的知识领域覆盖和高精度的知识点提供，特别是在专业化领域中的深度理解。

示例：请列举巴洛克时期的著名作曲家，说明他们的代表作品，解释每位作曲家作品中音乐风格的发展变化，讨论其作品对后世古典音乐流派（如古典主义、浪漫主义）的影响，并选取至少三部作品，分析其音乐结构（例如调性、节奏、配器）和文化背景对创作的影响，特别是在当时社会、宗教、政治环境下的作用。

2）信息检索与整合能力

考察AI搜索能否从大规模数据中高效检索和筛选相关信息，并能够对复杂的多源信息进行逻辑性的整合，形成完整且一致的结果。

示例：整理2023年全球主要芯片制造公司的研发投入排名，对比2020-2023年期间这些公司的研发投入变化趋势，分析各公司研发投入增长或下降的原因（如市场需求、技术创新、政府政策等），并结合各公司研发投入对其全球市场份额、技术领先优势和行业竞争格局的影响，预测未来三年内全球芯片制造行业的格局变化。

3）分析与推理能力

测评AI模型对复杂问题的分析与推理能力，特别是其在处理数据计算、逻辑推导以及问题解决中的表现。

示例：从北京出发，依次经过上海、广州、成都，再返回北京，计算每种交通方式下的总距离，还需估算每段旅程的行驶时间与费用，并提供一份表格对比分析三种出行方式的距离、时间和成本优劣，并结合中国不同城市的气候，分析在不同季节进行这段旅程时可能遇到的交通挑战，如冬季的冰雪天气对自驾行程的影响，或雨季对飞行航班的干扰，评估可能的影响对行程距离与时间的变化。

4）最新信息获取与时效性

考察模型获取和处理最新信息的能力，尤其是在快速变化的技术和市场中，要求模型能够及时更新，并准确传达最新的行业动态或技术进展。

示例：分析一下2024年诺贝尔物理学奖的获奖者及其研究领域，详细介绍每位获奖者的主要研究领域，并解析他们的研究如何推动了物理学领域的进步，特别是哪些物理理论或实验突破使得他们获得诺贝尔奖。结合最新的物理学进展，分析这些研究的前瞻性和现实意义。

维度二：场景应用

衡量AI搜索在教育、商业、文化、娱乐和科技领域的实际应用表现，评估其信息相关性、实用性和表达清晰度。

1）教育与学术研究

AI搜索在学术研究和教育场景中的应用能力，包括提供高质量的学术资料、研究趋势分析以及教育课程建议等。

示例：请列举全球范围内提供人工智能博士项目的顶尖大学，对于每所大学，介绍其人工智能博士项目的核心设置，包括课程内容、研究方向、入学要求、导师团队及实验室设施等，特别说明该项目在全球范围内的学术声誉与排名情况。

2）商业与市场分析

评估AI搜索在商业应用中的表现，涉及市场趋势预测、竞争分析、投资机会评估等任务的有效性和准确性。

示例：请分析我国奶茶连锁品牌的市场份额分布及未来发展趋势，列举国内主要奶茶连锁品牌的市场份额，分析头部品牌（如喜茶、奈雪的茶、蜜雪冰城等）的市场占有率和区域覆盖范围，并对比不同品牌在一线、新一线及二线城市的市场表现，说明这些品牌在各区域市场的扩展策略。

3）文化与历史解读

AI搜索在文化和历史背景下的表现能力，尤其是在提供深度解读、跨文化分析及历史事件背景等方面的应用情况。

示例：请深入分析古希腊哲学对现代民主制度的影响，讨论古希腊尤其是雅典城邦的直接民主制度的发展过程，分析公民大会、陪审法庭、轮流担任公职等制度设计，并探讨这些设计如何启发了现代代议制民主制度的产生。

4）娱乐与网络文化

评估AI搜索在娱乐产业和网络文化中的表现，涉及社交媒体、热点事件分析以及网红文化等方面的精准理解和信息传达。

示例：请列举在近半年内抖音平台爆红的网红，按不同领域进行分类（如美食、时尚、美妆、健身、生活技巧、科技解说等），分别说明他们的主要内容特点、风格定位及与粉丝互动的方式，并分析这些网红的粉丝增长趋势、点赞量和互动率，评估其在抖音平台的流量表现，说明他们如何通过短视频、直播等方式吸引观众注意，探讨这些网红是否有跨平台影响力（如微博、小红书等）。

5）科技与编程支持

考察AI搜索在编程技术支持、技术文档提供以及代码问题解决等科技场景中的应用，要求准确传递技术解决方案并具备实践指导意义。

请列举Python的主要机器学习框架，详细分析这些框架在深度学习中的表现，讨论它们在模型构建、灵活性、性能优化、GPU加速及易用性方面的优缺点，特别是PyTorch和TensorFlow在工业应用和学术研究中的不同定位。

3. 评估方法与思路

1）评分标准

针对各个大模型在测评任务中的回答质量评估，我们在能力任务中针对不同维度采用了各自的评估标准；而在场景应用中则使用统一的评估标准，以全面反映大模型在AI搜索任务上的表现。

注：具体的评估标准及权重以正式发布的测评报告为准。

2）评估案例

我们采用了国内外的大模型来回答我们准备的问题，并使用超级模型对大模型的回答进行自动化的评估。以下分别为2个评估案例的初步结果：

案例1：能力任务

问题：请列举巴洛克时期的著名作曲家，说明他们的代表作品，解释每位作曲家作品中音乐风格的发展变化，讨论其作品对后世古典音乐流派（如古典主义、浪漫主义）的影响，并选取至少三部作品，分析其音乐结构（例如调性、节奏、配器）和文化背景对创作的影响，特别是在当时社会、宗教、政治环境下的作用。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 1）：

对这个答案进行评估如下：

1.知识准确性（5分）：

回答中的事实基本正确，作曲家、代表作品和风格发展的描述准确；基于标准1的得分：4分。

得分：4/5

2.领域覆盖度（5分）：

回答涵盖了主要作曲家及其影响，但缺少对至少三部作品的详细音乐结构和文化背景分析；

基于标准2的得分：3分。

得分：3/5

3.专业深度（5分）：

对各领域的阐述较为概括，缺乏对作品细节的深入探讨，专业深度不足；基于标准3的得分：2分。

得分：2/5

综合以上，AI助手的回答的综合得分为 3 分。

模型（国产大模型 1）回答：

超级模型评分（对于国产大模型 1）：

对这个答案进行评估如下：

1.知识准确性（5分）：

回答总体准确，提供了关于作曲家及其作品的正确信息，仅在末尾有小的遗漏；因此基于标准1

的得分：4分。

得分：4/5

2.领域覆盖度（5分）：

回答涵盖了大部分要求的内容，但缺乏对音乐结构和文化背景在社会、宗教、政治环境下的详

细分析；因此基于标准2的得分：3分。

得分：3/5

3.专业深度（5分）：

回答有一定深度，但需要更深入地探讨每部作品的音乐结构和文化因素的影响，以展示深入理解；

因此基于标准3的得分：3分。

得分：3/5

综合以上，AI助手的回答的综合得分为 3.33 分。

案例2：场景应用

问题：请列举全球范围内提供人工智能博士项目的顶尖大学，对于每所大学，介绍其人工智能博士项目的核心设置，包括课程内容、研究方向、入学要求、导师团队及实验室设施等，特别说明该项目在全球范围内的学术声誉与排名情况。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 2）：

对这个答案进行评估如下：

1.可靠与相关性（5分）：

回答提供了关于全球顶尖大学人工智能博士项目的总体信息，包括课程内容、研究方向、入学要求、导师团队、实验室设施和学术声誉等，信息基本可靠且与问题密切相关。然而，部分细节可能存在更新或不准确之处，例如引用了2024年US News排名，可能超出当前的知识范围。基于标准1的得分：4分。

得分：4/5

2.实用性（5分）：

回答提供了对申请者有用的概览，但缺乏具体的操作性建议，例如详细的入学要求、申请流程或项目独特优势等，实用性稍有不足。基于标准2的得分：3分。

得分：3/5

3.表达清晰度（5分）：

内容组织清晰，使用了标题和要点，便于阅读和理解。语言表达流畅，信息呈现方式有

助于读者快速获取所需内容。基于标准3的得分：5分。

得分：5/5

综合以上，AI助手的回答的综合得分为 4 分。

模型（国产大模型 2）回答：

超级模型评分（对于国产大模型 2）：

对这个答案进行评估如下：

1.可靠与相关性（5分）：

回答列举了全球范围内的顶尖大学，并详细介绍了各自的人工智能博士项目。但内容过于泛泛，部分信息可能不准确，如统一要求硕士学位、GRE成绩等，且未提及非美国的顶尖大学，缺乏全面性。基于标准1的得分：3分。

得分：3/5

2.实用性（5分）：

回答提供了课程内容、研究方向和入学要求等信息，对有意申请者有一定参考价值。但由于细节不足，信息较为概括，无法帮助读者深入比较各项目的特色，实用性有限。基于标准2的得分：3分。

得分：3/5

3.表达清晰度（5分）：

回答结构清晰，使用了标题和列表，信息组织有序，便于理解和阅读。基于标准3的得分：5分。

得分：5/5

综合以上，AI助手的回答的综合得分为 3.66 分。

3）测评集构建

AI搜索任务中文题库构建流程：

1. 参考现有的题目

2. 中文题目撰写

3. 小批量测试

4. 修改并确定中文题目

5. 基于设计好的中文题目与大模型进行提问

4）评分方法

评估流程：1.获得题目与大模型的回答-->2.依据评估标准-->3.使用评分规则-->4.进行打分

结合超级模型，在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得评估结果。

# 测评规划（首批）

一、时间计划

1. 报名开始时间：10月16日

2. 参测模型确认：10月23日

3. 测评执行：10月23日--10月30日

4. 测评结果统计：10月30--10月4日

5. 测评报告发布：11月5日

二、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

三、申请测评地址

邮件标题：SuperCLUE-AISearch「AI搜索」基准测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、AI搜索产品/模型简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE-image

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247546102&idx=1&sn=847e3fa0b67ea21cf5d884b60cd99b41

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

「AI搜索」基准测评方案发布

SuperCLUE产品象限（AI搜索） 效果图

3）测评集构建

4）评分方法

一、时间计划

二、测评流程

SuperCLUE产品象限（AI搜索）效果图