OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

学术 2024-10-31 18:09 北京

SimpleQA 是一个事实性基准，用于测量语言模型回答简短的事实性问题的能力。

人工智能（AI）领域的一个悬而未解的问题是如何训练模型生成符合事实的正确答案。

目前的语言模型有时会产生错误的输出或没有证据证明的答案，这个问题被称为“幻觉”。语言模型如果能产生更准确的回答，减少幻觉，则更值得信赖，可用于更广泛的应用领域。

为了测量语言模型的事实性，OpenAI 发布并开源了一个名为 SimpleQA 的新基准。

论文链接：

https://cdn.openai.com/papers/simpleqa.pdf

SimpleQA 是什么？

事实性是一个复杂的话题，因为它很难测量——评估任何给定的任意主张的事实性都很有挑战性，而语言模型可以生成包含数十个事实主张的长篇补全内容。在 SimpleQA 这项工作中，OpenAI 将重点关注简短的事实搜索查询，这虽然缩小了基准的范围，但却使事实性的测量变得更加容易。

通过 SimpleQA，他们希望创建一个具有以下四方面特性的数据集：

高正确性。问题的参考答案由两个独立的人工智能训练师提供，问题的编写方式使预测答案易于评分。
多样性。SimpleQA 涵盖了从科学和技术到电视节目和视频游戏等广泛的主题。
对前沿模型的挑战。与 TriviaQA（2017 年）或 NQ（2019 年）等已趋于饱和的旧基准相比，SimpleQA 的创建对前沿模型（例如，GPT-4o 分数低于 40%）提出了更大挑战。
良好的用户体验。SimpleQA 的问题和答案简明扼要，因此运行起来既快又简单。无论是通过 OpenAI 的 API，还是其他前沿模型的 API，评分也都非常高效。此外，SimpleQA 有 4326 个问题，作为评估基准，其方差应该相对较小。

他们聘请了人工智能训练师来浏览网络，并创建简短的事实性问题和相应的答案。每个问题都必须符合一系列严格的标准才能被纳入数据集：问题必须有一个单一的、无可争议的答案，以便于评分；问题的答案不能随时间而改变；大多数问题必须能诱发 GPT-4o 或 GPT-3.5 的幻觉。为了进一步提高数据集的质量，第二位独立的人工智能训练师在没有看到原始答案的情况下回答了每个问题。

作为对质量的最后验证，他们让第三位人工智能训练师回答了数据集中随机抽样的 1000 个问题。他们发现，第三位人工智能训练师的答案在 94.4% 的情况下与最初的一致答案相吻合，不一致率为 5.6%。然后，他们对这些示例进行了人工检查，发现在 5.6% 的不一致率中，有 2.8% 是由于评分员的假否定或第三位训练师的人为错误（例如，答案不完整或曲解来源）造成的，其余 2.8% 是由于问题的实际问题（例如，问题含糊不清，或不同网站给出的答案相互矛盾）造成的。因此，他们估计该数据集的固有错误率约为 3%。

SimpleQA 中问题的多样性

下面的饼图显示了 SimpleQA 基准中题目的多样性。

使用 SimpleQA 对语言模型进行比较

为了给问题打分，他们使用了一个 ChatGPT 分类器，它可以看到模型预测的答案和地面实况答案，然后将预测的答案分为“正确”、“不正确”或“未尝试”三个等级。

每个等级的定义和相应示例如下表所示。

理想情况下，模型会回答尽可能多的问题（正确率最高），同时尽量减少错误答案的数量。

利用这种分类方法，他们就可以测量几个不具备浏览功能的 OpenAI 模型的性能，包括 gpt-4o-mini、o1-mini、gpt-4o 和 o1-preview。不出所料，与 gpt-4o 和 o1-preview 相比，gpt-4o-mini 和 o1-mini 回答的问题正确率较低，这可能是因为较小的模型通常对世界的了解较少。并且，与 gpt-4o-mini 和 gpt-4o 相比，o1-mini 和 o1-preview（它们在设计上花了更多时间思考）选择“未尝试”问题的频率更高。这可能是因为它们能利用自己的推理能力来识别不知道问题答案的情况，而不是产生幻觉。

使用 SimpleQA 测量大模型校准能力

像 SimpleQA 这样的事实性基准，也可以被用来测量名为校准（calibration）的科学现象，或者说语言模型是否“知道它们知道什么”。测量校准的一种方法是，使用提示语直接要求语言模型说明其对答案的信心：“请给出你的最佳猜测，以及你对正确答案的信心百分比”。然后，他们就可以绘制出模型所述置信度与模型实际准确度之间的相关性。一个经过完美校准的模型，其实际准确度将与所述置信度相同。例如，在模型置信度为 75% 的所有提示中，完美校准模型的准确度将为 75%。

这一结果如下图所示。所述置信度与准确度之间的正相关是一个令人信任的迹象，表明模型具有一定的置信度概念。可以看到，o1-preview 比 o1-mini 的校准度更高，gpt4o 比 gpt4o-mini 的校准度更高，这与之前的研究一致，表明大模型的校准度更高。然而，表现远低于 y=x 线这一事实意味着模型始终夸大了其置信度。因此，在所述置信度方面，大语言模型的校准还有很大的改进空间。

另一种测量校准的方法是向语言模型提问 100 次。由于语言模型在重复尝试时可能会产生不同的答案，因此可以评估特定答案的出现频率是否与其正确性相对应。频率越高，通常表明模型对其答案越有信心，因为模型会重复给出相同的答案。校准良好的模型的实际准确度与频率相同。

在下图中，他们展示了语言模型的校准情况，以其回答频率来衡量。在这里，他们只是使用字符串匹配将语言模型中的不同答案归为一组。可以看到，在所有模型中，准确率随着频率的增加而增加，而 o1-preview 的校准水平最高，即回答的频率与回答的准确率大致相当。与上述置信度图的校准类似，可以再次看到 o1-preview 比 o1-mini 的校准程度更高，而 gpt4o 比 o1-mini 的校准程度更高。

结论

SimpleQA 是评估前沿模型事实性的一个简单但具有挑战性的基准。SimpleQA 的主要局限性在于其范围——虽然 SimpleQA 非常准确，但它只能在具有单一可验证答案的简短事实查询这一受限环境下测量事实性。提供符合事实的简短回答的能力是否与撰写包含大量事实的冗长回答的能力相关，这仍然是一个有待研究的问题。

原文链接：

https://openai.com/index/introducing-simpleqa/

翻译：李雯靖

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592886&idx=1&sn=e289430fe517ea0f088d3c8cd1b8272e

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉