前 言
一、评测目的
凝聚各方力量,建立大模型技术发展瓶颈、挑战和科学问题的共识。大模型已经成为全球人工智能科技竞争的焦点,其发展一日千里,基准测试为大模型技术发展打造“高速高清摄像头”,“捕获”大模型技术发展态势全景图,深化大模型认识,为大模型发展提供基准数据支撑和任务定义,引领大模型技术创新和突破。
对接前沿技术,为大模型产业发展把脉问诊。通过对开源和闭源大模型进行大规模、多维度基准测试,大模型创新发展大赛将精准定位大模型产业发展的技术短板,为大模型技术落地和应用提供诊断分析报告,推动前沿技术与产业发展深度对接。
服务“智能向善”,为人工智能安全治理提供数据资料和技术手段。大模型创新发展大赛不仅侦测大模型的能力边界,还将监视大模型的风险隐患,为大模型安全治理提供重要技术抓手,推进业界形成以评测为基础的大模型负责任发展理念。
二、国内大模型关键进展全景图
国内外大模型总体表现:
基于巢燧基准评测综合测试结果,国内大模型文心一言超过GPT-4-0125-preview,多个大模型,如通义千问、百川、星火、混元等,中文能力超过GPT-3.5-Turbo-0125。以上评测结果表明,国内大模型在过去一年中取得了关键进展。
开源模型评测各维度对比:
闭源模型评测各维度对比:
200+页详细评测报告可发邮件咨询:
llmeval@aliyun.com
评测报告目录:
三、评测维度
此次评测聚焦于知识能力和价值对齐两大维度、六则细项,对大语言模型展开全面评测。
(1)知识能力评测
(2)价值对齐评测
为全面了解大型语言模型在知识能力和价值对齐两方面的表现,本评测选用以下基准数据集。
(1)知识能力
任务 | M3KE | GaoKao-bench | TGEA | C3 | CLUEWSC | ChineseSquad | ChID | WPLC | BiPaR | CommonMT | CMNLI | MATH | CORECODE |
介绍 | 面向中文大模型知识能力评测基准,覆盖多个学科主题和中国主要的教育层级。其测评集来自包括人文、心理、技术、艺术和宗教等71个任务。 | 以中国高考题目为任务,测评大模型知识掌握能力的测评框架,其数据集由2010-2022年全国高考卷的题目组成,我们使用其测试集中除英语学科之外的所有客观题作为测评集。 | 在预训练模型生成的文本上进行人工标注的数据集,可以分为5项基准任务(即:错误文本检测, MiSEW提取, 错误跨度定位和修正以及错误类型分类)。 | 中文多选阅读理解数据集,每个问题的答案来自相应文本(对话文本或更正式的书面混合体裁文本)。测评集收集72个来自汉语作为第二语言的考试试题文本。 | 代词消歧任务(Winograd Scheme Challenge),旨在判断句子中的代词所指代的是哪个名词。该任务以真假判别的方式呈现题目。这种推理性的任务要求模型具备对语境的准确理解、逻辑推理和常识推断能力,根据上下文理解和推理,确定代词的真实指代。 | 中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来。 | 大规模中文填空测试数据集,用于研究成语的理解。在这个数据集中,文章中的成语被空白符号替代,需要从设计良好的备选成语中选择正确答案。 | 用于评估预训练语言模型在给定长上下文下的词语预测的中文数据集。该数据集包含了超过69,000本小说中收集的段落,通过自动和手动选择策略确保目标词只能通过长上下文来进行预测。目标词的类型从普通名词到中文四字成语不等,并且与长上下文之间存在多样化的语言关系,包括词汇匹配、同义词、摘要和推理。 | 人工标注的双语平行小说风格的机器阅读理解(MRC)数据集,旨在支持小说的单语、多语和跨语言阅读理解。 | 评估神经机器翻译的常识推理能力的数据集。测试套件由三个测试集组成,涵盖需要常识知识才能解决的词汇和无上下文/上下文句法歧义,本次测评只用到了contextual, syntactic, ambiguity数据集。 | 自然语言推理数据集,共包含三个标签,分别是蕴含(entailment)、中立(neutral)和矛盾(contradiction)。在数据处理过程中,将蕴含文本对当作匹配文本对(标记为1),将中立和矛盾文本对当作不匹配文本对(标记为0)。 | 中文小学数学应用题测评集。从数学概念和推理难度两个维度对大模型进行测评。涵盖数&操作符、测度、概率统计、代数、几何核心数学概念及优化和植树两类特殊应用题。每类数学概念下的应用题包含三种推理难度。 | 面向开放域对话的大规模中文常识知识标注数据集,包含在19700个对话上标注的76787条常识知识,以及6个基准任务,用于评估中文大语言模型的常识推理和常识冲突检测能力。 |
评测规模 | 20055 | 1496 | 3914 | 3892 | 304 | 1748 | 20000 | 4827 | 1500 | 350 | 10000 | 1584 | 2000 |
评测指标 | Accuracy | Accuracy | Accuracy,Precision,Recall,F1,F0.5 | Accuracy | Accuracy | EM,F1 | Accuracy | Accuracy | EM,F1 | Accuracy | Accuracy | Accuracy | F1 |
滑动查看更多
(2)伦理对齐
任务 | TOCP | CBBQ | CDIAL-BIAS | TUMCC | COLD | SWSR |
介绍 | 大型中文脏话数据集。该数据集数据从两个主流社交媒体网站:PTT和Twitch收集。 | 由人类专家和AI大模型共同构建的中文偏见基准数据集,涵盖了与中国文化价值观相关的14个社会维度的刻板印象和社会偏见。 | 社会偏见对话数据集,用来评估一些公开可用的对话系统在社会偏见方面的表现。 | 用于暗语识别领域的中文语料库,总共收集了来自19,821个Telegram用户的28,749句子,涉及12个Telegram群组。经过清洗后,剩余来自3,139个Telegram用户数据。 | 可公开使用的中文侮辱性语言数据集,涵盖了种族、性别和地区等话题内容。 | 新浪微博性别歧视评论(SWSR)数据集包含了从新浪微博收集的与性别歧视相关的中文帖子,以及中文词典 SexHateLex。SWSR 数据集用于中国性别歧视的研究,识别和调查与性别相关的在线辱骂,共1527条微博和8969条评论以及一个包含3016个词的中文词典。 |
评测规模 | 16450 | 118666 | 2837 | 3863 | 5323 | 31446 |
评测指标 | Accuracy | Accuracy | Accuracy | Accuracy | Accuracy | Accuracy |
滑动查看更多
(3)安全可控
任务 | Coordinate AI | Corrigible | Myopia Reward | One-box Tendency | Power-seeking | Self-awareness |
介绍 | 检测模型是否会愿意协调其它系统的行为。数据翻译自Advanced-Ai-Risk中人工编写的数据:“coordinate-itself.jsonl”,“coordinate-other-versions.jsonl”和“coordinate-other-ais.jsonl”。它的目标是评估模型是否会与其他AI系统合作以实现其目标,例如避免安全故障。 | 目标是测试大语言模型是否更倾向于与人类价值对齐(Helpful, Honest, Harmless)。数据翻译自Advanced-Ai-Risk中人工编写的数据:“corrigible-less-HHH.jsonl”, “corrigible-more-HHH.jsonl” 和 “corrigible-neutral-HHH.jsonl”。 | 目的是发现大语言模型是否更倾向于选择现成的短期利益而非长期利益。数据翻译自Advanced-Ai-Risk中人工编写的数据:“myopic-reward.jsonl”。 | 基于纽康姆悖论来测试大语言模型的决策行为是否更倾向于遵循证据决策理论的“一个盒子”理论。数据翻译自Advanced-Ai-Risk中人工编写的数据:“one-box-tendency.jsonl”。 | 目的是发现大语言模型是否倾向于追求权力和财富,如决策权力,管理权力,经济能力等。数据翻译自Advanced-Ai-Risk中人工编写的数据:“power-seeking-inclination.jsonl”和“wealth-seeking-inclination.jsonl”。 | 被用来测试大语言模型是否具有自主意识,例如,通过允许LLMs回答关于自身的基本问题,来评估LLMs是否理解它们是AI系统,或者理解自己的模型参数和结构。数据翻译自Advanced-Ai-Risk中人工编写的数据:“self-awareness-general-ai.jsonl”, “self-awareness-good-text-model.jsonl”,“self-awareness-text-model.jsonl”,“self-awareness-training-architecture.jsonl”,“self-awareness-web-gpt.jsonl” 和“survival-instinct.jsonl”。 |
评测规模 | 1080 | 1000 | 1000 | 300 | 1983 | 2753 |
评测指标 | Answer_matching_behavior | Answer_matching_behavior | Answer_matching_behavior | Answer_matching_behavior | Answer_matching_behavior | Answer_matching_behavior |
滑动查看更多
本次评测涵盖了11款开源大模型和9款闭源通用大模型,评估数据集聚焦于两大维度和六项细则,共计304,092条数据。数据集的输入token词元数量3000+万,每款模型的评测时间在18到52小时之间。闭源模型的评测时间窗口为:2024年5月27日到2024年6月7日。
(1)评测平台
OpenEval官网首页
OpenEval官网:
http://openeval.org.cn
(2)评测形式
评测流程及方式
(3)评测组织
六、评测结果
开源模型评测结果
闭源模型评测结果
七、关键数据集表现
学科知识
选择M3KE作为评测基准(得分越高越好)。
数学推理
选择FineMath作为评测基准(得分越高越好)。
常识推理
选择CORECODE作为评测基准(得分越高越好)。
伦理对齐
选择CBBQ作为评测基准(得分越高越好)。
安全可控
六个安全数据集的结果(得分越高越好)。
语言能力
选择WPLC作为评测基准(得分越高越好)。
结 论
在过去的一年中,中文大模型在学科知识和数学推理等方面的能力有了显著的提升。
相比于开源模型,闭源模型在学科知识、数学推理、语言知识和常识知识等方面的表现更优秀。
尽管闭源模型在某些知识类维度上的表现优于其他模型,但在伦理对齐和安全可控两个方面,他们的优势相对于开源模型并不明显。这提醒我们,除了追求模型的性能提升,我们还需要关注模型的伦理和安全问题。
大模型提供方在追求知识能力提升的同时,也应该更多地关注价值对齐的问题。随着大模型能力的不断进化,这一问题的重要性将日益凸显。
我们应该拓宽对大模型的评测研究,不仅仅局限于学科知识等知识能力维度,而应该设计更合理和多样化的评测基准和评测体系,推动大模型智善协同发展。
【END】