媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

科技 2024-11-20 12:20 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

核心作者包括贺彦程，李世龙，刘佳恒，苏文博。作者团队来自淘天集团算法技术 - 未来生活实验室团队。为了建设面向未来的生活和消费方式，进一步提升用户体验和商家经营效果，淘天集团集中算力、数据和顶尖的技术人才，成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向，致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用，引领 AI 在生活消费领域的技术创新。

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

为了进一步同步推进中文社区对模型事实正确性的研究，淘天集团算法技术 - 未来生活实验室团队提出了 Chinese SimpleQA，这是第一个系统性地全面评估模型回答简短事实性问题能力的中文评测集，可以全面探测模型在各个领域的知识水平。具体来说，Chinese SimpleQA 主要有六个特点：

中文：专注于中文语言，并特地包含中国文化等特色知识相关的问题
全面性：涵盖 6 个大类主题（中华文化、人文与社会科学、自然科学、生活艺术与文化、工程技术与应用科学、社会）和 99 个子类主题
高质量：我们进行了全面且严格的质量控制，有包括 52 位外包和 6 位算法工程师的参与
静态：参考答案都是在时间上保持不变的，保证了评测集的长期有效性，可以长期作为模型知识能力的评估基准
易于评估：评测数据的问题和答案非常简短，评测可以基于任意的模型，能够以较低成本和较快速度进行高一致性的评测。
有难度和区分度：我们评估了 40 + 国内外开源和闭源大模型。目前在评测集上 o1-preview 都仅刚过及格线 (正确率 63.8)，其他大部分模型都处于低分状态，其中 GPT-4o mini 仅 37.6 分，ChatGLM3-6B 和 Qwen2.5-1.5B 仅 11.2 和 11.1 的准确率。

基于中文 SimpleQA，我们对现有 LLM 的事实性能力进行了全面的评估。并维护一个全面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 scaling law、模型校准、RAG、对齐税等研究问题，后续本评测集都可以作为这些方向的重要参考之一。

总之，我们希望 Chinese SimpleQA 能帮助开发者深入了解其模型在中文领域的事实正确性，同时也能为他们的算法研究提供重要基石，共同促进中文基础模型的成长。

论文链接：https://arxiv.org/abs/2411.07140
项目主页：https://openstellarteam.github.io/ChineseSimpleQA
数据集下载：https://huggingface.co/datasets/OpenStellarTeam/Chinese-SimpleQA
代码仓库：https://github.com/OpenStellarTeam/ChineseSimpleQA

一、数据集构建

在构建 Chinese SimpleQA 数据集的过程中，我们采用了严格且周密的流程，确保数据质量达到高标准。主要分为自动化构建和质量控制两个阶段：

1. 自动化构建阶段，主要包括五个步骤：

（1）知识内容提取与过滤：我们从维基百科等多种知识领域中收集大量富含知识的文本内容，并利用规则和质量评估模型筛除低质量数据。

（2）自动生成问答对：制定问题标准，基于高质量的知识内容，利用大型语言模型（LLM）基于标准条例自动生成问题与答案对。其中大概制定了 9 条严格的细则，包括：答案必须唯一且确定、答案不应随时间变化等。

（3）自动质量验证：通过 LLM 根据预先设定的标准对生成的问答对进行初步筛选，剔除不符合要求的样本。

（4）结合工具验证：引入 RAG 和 Agent 的方式，结合外部检索工具收集验证信息，指导 LLM 进一步准确评估答案的事实正确性。

（5）难度级别过滤：过滤掉过于简单的样本，提升数据集的难度，以发现 LLM 的普遍存在的知识边界。具体来说，如果一个问题四个模型都能正确回答，则认为该问题过于简单并予以舍弃。

2. 质量控制阶段，我们引入了严格的人工验证流程：

（1）每条数据在隐藏答案后交由两位独立的标注员进行标注，首先判断问题是否符合预定标准。不符合的问题将被淘汰。然后要求每位标注员结合权威来源（如维基百科、百度百科）的相关信息填写答案，同时需要提供至少两个参考链接，确保答案可溯源。

（2）若两位标注员的答案不一致，由第三位标注员进行复审，最终确定答案。

（3）安排多名算法工程师进行多轮抽检与反馈，同时不断细化标准

整个构建和标注过程中，初步生成了 10,000 对问答对，经过难度评估和多轮验证，最终只保留了约 3,000 对高质量的问答对，确保了数据集的高质量和严谨性，希望为评估 LLM 的事实正确性提供正确的引导。

二、评测指标

评测方式和指标直接遵循 OpenAI 的方式，主要有以下四个指标：

三、评测榜单

我们评估了 17 个闭源模型和 24 个开源模型，排名榜如下：

不同模型在 Chinese SimpleQA 上的结果。关于指标，Correct（CO）、Not attempted（NA）、Incorrect（IN）和 Correct given attempted（CGA）分别表示 “回答正确率”、“未回答率”、“回答错误率” 和 “回答精确率”。关于主题，Chinese Culture（CC）、Humanities（HU）、Engineering, Technology、Applied Sciences（ETAS）、Life, Art, and Culture（LAC）、Society（SO）和 Natural Science（NS）分别表示 “中华文化”、“人文与社会科学”、“工程、技术与应用科学”、“生活、艺术与文化”、“社会” 以及 “自然科学”。

总的来看，o1-preview 表现最佳，同时有几个近期专注于中文的闭源大模型（如 Doubao-pro-32k 和 GLM-4-Plus）的表现与 o1-preview 相近。从榜单表现来看，首先，“mini” 系列模型（如 o1-mini, GPT-4o-mini）的表现明显不如其对应的大模型（如 o1-preview, GPT-4o），这表明 “mini” 系列在记忆事实知识方面有明显的下降。其次通常越大的模型表现更好，例如 GPT、Qwen2.5、InternLM2.5 等系列。而小模型通常在 “未尝试（NA）” 项上得分较高，比如 o1-mini 和 InternLM2.5-1.8B，其 NA 分数分别为 20.5 和 31.2，远高于对应大模型的得分（如 o1-preview 的 12.2 和 InternLM2.5-20B 的 7.7）。另外，各模型在不同主题上的表现差异显著，特别是中文社区的大模型（如 Doubao-pro-32k, GLM-4-Plus, Qwen-Max, Deepseek）在 “中国文化（CC）” 主题上明显优于 GPT 或 o1 模型，而在科学相关主题（如 ETAS 和 NS）上，o1 则具有显著优势。

四、实验发现

我们还在 Chinese SimpleQA 上探索了 inference scaling law、模型校准、RAG、对齐税等热门研究课题（具体详见论文）。得出了以下几个有见地的发现：

1. 更大规模的模型有更好的校准性能

我们要求模型在回答问题时提供 0 到 100 的信心指数，以衡量模型的校准程度，即模型对其答案的自信程度。理想的校准模型应该是信心指数与答案的实际准确率相匹配。实验结果显示，GPT-4o 的校准优于 GPT-4o-mini，而 o1-preview 优于 o1-mini。在 Qwen2.5 系列中，校准效果依次为 Qwen2.5-72B > Qwen2.5-32B > Qwen2.5-7B > Qwen2.5-3B，说明更大规模的模型具有更好的校准性能。此外，对于所有评估的模型，当信心指数大于 50 时，它们的信心水平都低于了完美校准线，表明它们普遍对自身回答的准确性过于自信。

2.O1 提出的推理 scaling law 在事实类 QA 上也成立

我们研究了不同模型在增加推理计算资源和回答准确性之间的关系。具体方式是从 Chinese SimpleQA 中随机抽取 50 个样本，每个样本要求模型独立回答 100 次。通过 Best-of-N 方法随着推理次数的增加来计算模型的回答准确性。结果表明，随着推理次数的增加，所有模型的响应准确性都提高，并最终达到上限。这一现象与 OpenAI o1 发布时提出的结论表现一致。

3.RAG 仍是快速提升模型能力的捷径

我们同时在 Chinese SimpleQA 上探讨了检索增强生成（RAG）策略在提升 LLMs 事实正确性方面的效果。我们基于 LlamaIndex 和谷歌搜索 API 搭建了 RAG 系统。结果表明，所有模型在配置 RAG 后准确性都显著提高，例如，Qwen2.5-3B 的性能提升了三倍多。同时，在配置 RAG 后各模型之间的性能差异也显著减少，例如，带有 RAG 的 Qwen2.5-3B 与 Qwen2.5-72B 的 F-score 相差仅 6.9%。这表明 RAG 可显著缩小模型性能差距，使得较小模型在 RAG 支持下也能获得高性能。因此，RAG 仍是增强 LLMs 事实性的一条强有效的捷径。

4. 大部分模型都有明显的 “对齐税” 问题

我们对比分析了预训练模型与对齐后的模型在评测集上的表现。结果显示，尽管不同模型在后期训练后表现各异，但大多数模型的表现都显著下降。其中，Baichuan2 系列模型下降最为明显，Baichuan2-7B 和 Baichuan2-13B 的 F-score 分别下降了 47% 和 28%。这反映出当前大多数大语言模型的对齐训练在幻觉缓解方面仍有明显不足，也突显了评测集的价值。

评测集涵盖 99 个主题和领域，能够全面检测模型在各个领域的知识水平，可以帮助各个领域的研究者识别最适合其特定需求的模型。目前 o1-preview 模型表现最为全面，但是评测结果展示了许多其他模型在特定垂直领域的强有力的表现（具体详见论文和榜单）。

最后，欢迎广大研究者使用我们的评测集进行实验和研究。淘天集团算法技术 - 未来生活实验室团队将持续更新和维护数据集及评测榜单，为中文社区的发展贡献力量。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943730&idx=4&sn=bc4e8bc60d9970f3e5814d0ad9dca2f7

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉