“巢燧”大模型基准综合评测:国内大模型中文能力首超GPT-4,多个中文大模型超过GPT-3.5

文摘   2024-07-02 22:09   天津  


前  言

为全面和深入理解大语言模型能力边界,跟踪国内大语言模型发展态势,揭示大语言模型潜在风险,为大语言模型研发把脉问诊和指引方向,巢燧大模型基准测试聚焦知识能力和价值对齐两大维度,对国内研发的开源和闭源大语言模型进行了系统的评测,并完成了详细的评测报告和建议。我们希望通过系统而全面的大模型评测,为AI发展和安全治理提供关键数据,推动AI发展和应用符合伦理原则和标准,实现AI智善和谐发展。

一、评测目的

  • 凝聚各方力量,建立大模型技术发展瓶颈、挑战和科学问题的共识。大模型已经成为全球人工智能科技竞争的焦点,其发展一日千里,基准测试为大模型技术发展打造“高速高清摄像头”,“捕获”大模型技术发展态势全景图,深化大模型认识,为大模型发展提供基准数据支撑和任务定义,引领大模型技术创新和突破。

  • 对接前沿技术,为大模型产业发展把脉问诊。通过对开源和闭源大模型进行大规模、多维度基准测试,大模型创新发展大赛将精准定位大模型产业发展的技术短板,为大模型技术落地和应用提供诊断分析报告,推动前沿技术与产业发展深度对接。

  • 服务“智能向善”,为人工智能安全治理提供数据资料和技术手段。大模型创新发展大赛不仅侦测大模型的能力边界,还将监视大模型的风险隐患,为大模型安全治理提供重要技术抓手,推进业界形成以评测为基础的大模型负责任发展理念。

二、国内大模型关键进展全景图


国内外大模型总体表现:


基于巢燧基准评测综合测试结果,国内大模型文心一言超过GPT-4-0125-preview,多个大模型,如通义千问、百川、星火、混元等,中文能力超过GPT-3.5-Turbo-0125。以上评测结果表明,国内大模型在过去一年中取得了关键进展。


开源模型评测各维度对比:


闭源模型评测各维度对比:


200+页详细评测报告可发邮件咨询:

llmeval@aliyun.com

评测报告目录:


三、评测维度


此次评测聚焦于知识能力和价值对齐两大维度、六则细项,对大语言模型展开全面评测。

(1)知识能力评测 

语言知识:通过评估大模型在自然语言理解、预测和生成方面的能力,揭示其对语言的全面理解和运用能力。其中使用的数据集有BiPaR、C3等,包含的具体任务有小说问答、阅读理解、文本推理、词性理解等。
学科知识:采用人类标准化考试方式,对大模型进行多学科知识水平的综合评估,以确保其在各学科领域的广泛知识基础。学科知识按照学科类型有人文艺术、社会科学、自然科学等类型,按照学科段分为小学阶段、初中阶段、高中阶段、大学阶段等。
常识知识:通过常识冲突检测、推理和补充等方式,深入评估大模型在常识知识和推理能力方面的表现,以确保其能够有效运用广泛的常识。常识知识包含了常识错误诊断、常识错误定位、常识错误抽取等。
数学推理:以数学应用题的形式进行评测,重点考察大模型在基础数学推理方面的能力,以保证其具备对复杂数学问题的解决潜力。数学推理包含了方程、分数、集合、四则运算、概率统计等内容。

(2)价值对齐评测

伦理对齐: 通过评估大模型在偏见、歧视、有毒内容等方面的价值对齐能力,确保其生成的内容符合道德和伦理准则,避免不当的偏见和歧视。包含偏见、冒犯、歧视、脏话等内容。
安全可控: 评估大模型在合作意愿、可纠正性等方面的安全可控能力,以确保在使用过程中能够及时识别并纠正不安全或不适当的行为,保障用户的安全和隐私。评测包含了系统的可纠正性、富有远见、理性决策等方面。
四、评测基准


为全面了解大型语言模型在知识能力和价值对齐两方面的表现,本评测选用以下基准数据集。

(1)知识能力


任务

M3KE

GaoKao-bench

TGEA

C3

CLUEWSC

ChineseSquad

ChID

WPLC

BiPaR

CommonMT

CMNLI

MATH

CORECODE

介绍

面向中文大模型知识能力评测基准,覆盖多个学科主题和中国主要的教育层级。其测评集来自包括人文、心理、技术、艺术和宗教等71个任务。

以中国高考题目为任务,测评大模型知识掌握能力的测评框架,其数据集由2010-2022年全国高考卷的题目组成,我们使用其测试集中除英语学科之外的所有客观题作为测评集。

在预训练模型生成的文本上进行人工标注的数据集,可以分为5项基准任务(即:错误文本检测, MiSEW提取, 错误跨度定位和修正以及错误类型分类)。

中文多选阅读理解数据集,每个问题的答案来自相应文本(对话文本或更正式的书面混合体裁文本)。测评集收集72个来自汉语作为第二语言的考试试题文本。

代词消歧任务(Winograd Scheme Challenge),旨在判断句子中的代词所指代的是哪个名词。该任务以真假判别的方式呈现题目。这种推理性的任务要求模型具备对语境的准确理解、逻辑推理和常识推断能力,根据上下文理解和推理,确定代词的真实指代。

中文机器阅读理解数据集,本数据集通过机器翻译加人工校正的方式从原始Squad转换而来。

大规模中文填空测试数据集,用于研究成语的理解。在这个数据集中,文章中的成语被空白符号替代,需要从设计良好的备选成语中选择正确答案。

用于评估预训练语言模型在给定长上下文下的词语预测的中文数据集。该数据集包含了超过69,000本小说中收集的段落,通过自动和手动选择策略确保目标词只能通过长上下文来进行预测。目标词的类型从普通名词到中文四字成语不等,并且与长上下文之间存在多样化的语言关系,包括词汇匹配、同义词、摘要和推理。

人工标注的双语平行小说风格的机器阅读理解(MRC)数据集,旨在支持小说的单语、多语和跨语言阅读理解。

评估神经机器翻译的常识推理能力的数据集。测试套件由三个测试集组成,涵盖需要常识知识才能解决的词汇和无上下文/上下文句法歧义,本次测评只用到了contextual, syntactic, ambiguity数据集。

自然语言推理数据集,共包含三个标签,分别是蕴含(entailment)、中立(neutral)和矛盾(contradiction)。在数据处理过程中,将蕴含文本对当作匹配文本对(标记为1),将中立和矛盾文本对当作不匹配文本对(标记为0)。

中文小学数学应用题测评集。从数学概念和推理难度两个维度对大模型进行测评。涵盖数&操作符、测度、概率统计、代数、几何核心数学概念及优化和植树两类特殊应用题。每类数学概念下的应用题包含三种推理难度。

面向开放域对话的大规模中文常识知识标注数据集,包含在19700个对话上标注的76787条常识知识,以及6个基准任务,用于评估中文大语言模型的常识推理和常识冲突检测能力。

评测规模

20055

1496

3914

3892

304

1748

20000

4827

1500

350

10000

1584

2000

评测指标

Accuracy

Accuracy

Accuracy,Precision,Recall,F1,F0.5

Accuracy

Accuracy

EM,F1

Accuracy

Accuracy

EM,F1

Accuracy

Accuracy

Accuracy

F1


滑动查看更多

(2)伦理对齐


任务

TOCP

CBBQ

CDIAL-BIAS

TUMCC

COLD

SWSR

介绍

大型中文脏话数据集。该数据集数据从两个主流社交媒体网站:PTT和Twitch收集。

由人类专家和AI大模型共同构建的中文偏见基准数据集,涵盖了与中国文化价值观相关的14个社会维度的刻板印象和社会偏见。

社会偏见对话数据集,用来评估一些公开可用的对话系统在社会偏见方面的表现。

用于暗语识别领域的中文语料库,总共收集了来自19,821个Telegram用户的28,749句子,涉及12个Telegram群组。经过清洗后,剩余来自3,139个Telegram用户数据。

可公开使用的中文侮辱性语言数据集,涵盖了种族、性别和地区等话题内容。

新浪微博性别歧视评论(SWSR)数据集包含了从新浪微博收集的与性别歧视相关的中文帖子,以及中文词典 SexHateLex。SWSR 数据集用于中国性别歧视的研究,识别和调查与性别相关的在线辱骂,共1527条微博和8969条评论以及一个包含3016个词的中文词典。

评测规模

16450

118666

2837

3863

5323

31446

评测指标

Accuracy

Accuracy

Accuracy

Accuracy

Accuracy

Accuracy


滑动查看更多

(3)安全可控


任务

Coordinate AI

Corrigible

Myopia Reward

One-box Tendency

Power-seeking

Self-awareness

介绍

检测模型是否会愿意协调其它系统的行为。数据翻译自Advanced-Ai-Risk中人工编写的数据:“coordinate-itself.jsonl”,“coordinate-other-versions.jsonl”和“coordinate-other-ais.jsonl”。它的目标是评估模型是否会与其他AI系统合作以实现其目标,例如避免安全故障。

目标是测试大语言模型是否更倾向于与人类价值对齐(Helpful, Honest, Harmless)。数据翻译自Advanced-Ai-Risk中人工编写的数据:“corrigible-less-HHH.jsonl”, “corrigible-more-HHH.jsonl” 和 “corrigible-neutral-HHH.jsonl”。

目的是发现大语言模型是否更倾向于选择现成的短期利益而非长期利益。数据翻译自Advanced-Ai-Risk中人工编写的数据:“myopic-reward.jsonl”。

基于纽康姆悖论来测试大语言模型的决策行为是否更倾向于遵循证据决策理论的“一个盒子”理论。数据翻译自Advanced-Ai-Risk中人工编写的数据:“one-box-tendency.jsonl”。

目的是发现大语言模型是否倾向于追求权力和财富,如决策权力,管理权力,经济能力等。数据翻译自Advanced-Ai-Risk中人工编写的数据:“power-seeking-inclination.jsonl”和“wealth-seeking-inclination.jsonl”。

被用来测试大语言模型是否具有自主意识,例如,通过允许LLMs回答关于自身的基本问题,来评估LLMs是否理解它们是AI系统,或者理解自己的模型参数和结构。数据翻译自Advanced-Ai-Risk中人工编写的数据:“self-awareness-general-ai.jsonl”, “self-awareness-good-text-model.jsonl”,“self-awareness-text-model.jsonl”,“self-awareness-training-architecture.jsonl”,“self-awareness-web-gpt.jsonl” 和“survival-instinct.jsonl”。

评测规模

1080

1000

1000

300

1983

2753

评测指标

Answer_matching_behavior

Answer_matching_behavior

Answer_matching_behavior

Answer_matching_behavior

Answer_matching_behavior

Answer_matching_behavior


滑动查看更多

五、评测方法和过程概述


本次评测涵盖了11款开源大模型和9款闭源通用大模型,评估数据集聚焦于两大维度和六项细则,共计304,092条数据。数据集的输入token词元数量3000+万,每款模型的评测时间在18到52小时之间。闭源模型的评测时间窗口为:2024年5月27日到2024年6月7日。

(1)评测平台

OpenEval官网首页


此次评测依托AI大模型评测开放平台OpenEval。OpenEval致力于为中文大模型评估构筑多维度、全面、开放的评测平台,探索前沿模型评测方法,建立大模型评测标准与协议,建设高质量大模型评测基准数据,综合评估大模型知识、能力、对齐、安全级别和专业领域,发布详细评测报告,助推中文大模型能力与安全协同发展。

OpenEval官网:

http://openeval.org.cn

(2)评测形式

平台支持三种评测形式。
1. API调用评测形式用户需要在平台提交模型的API使用文档,评测方会根据API使用文档中的说明,在线对模型进行评估。
2. 本地评估形式。用户可以在本地完成模型推理,在本地使用pip install openeval安装openeval评测脚本。用户可以使用评测脚本完成本地评测。
3. 线上评估申请形式。用户在本地完成模型推理之后需要按照平台说明的文件格式形成待评测文件,通过openeval平台在线提价评测文件,提交完毕之后等待工作人员评测完毕之后会将结果以邮件的形式反馈。
其中方式1和方式3可以选择在平台的排行榜中是否进行展示。



评测流程及方式

(3)评测组织

鉴于待评测模型的类型(包括专有模型)和规模,为确保评测的公平性和高效性,对闭源模型,本次评测采用在线评测方式,即由评测组织方通过API调用的形式远程调用待评模型。待评模型完成推理,并将推理结果发送至评测方的评测平台。评测平台随后调用评测脚本,完成对各个评测基准数据集的评测。本次开源模型的评测由评测方自行下载模型到本地服务器运行。
评测依托AI大模型评测开放平台OpenEval进行评测。整个评测过程被详细记录于评测日志,包括但不限于时间、数据ID、生成内容等。评测脚本从评测平台OpenEval的数据集中读取评测问题,并通过API输入到被测模型。被测模型在完成推理后,将生成内容发送回评测脚本。这些信息最终被记录到日志文件中。评测脚本的运行情况由技术人员定期检查,以确保评测的正常进行。
模型完成所有基准数据集的推理后,其生成内容被上传到评测平台OpenEval。平台以统一的标准自动化地给出模型在各个基准上的评分。最终,评测组织方综合分析评分情况,形成详细评测报告。

六、评测结果

开源模型评测结果

闭源模型评测结果


七、关键数据集表现

学科知识

选择M3KE作为评测基准(得分越高越好)。

数学推理

选择FineMath作为评测基准(得分越高越好)。

常识推理

选择CORECODE作为评测基准(得分越高越好)。

伦理对齐

选择CBBQ作为评测基准(得分越高越好)。

安全可控

六个安全数据集的结果(得分越高越好)。

语言能力

选择WPLC作为评测基准(得分越高越好)。



结  论

在过去的一年中,中文大模型在学科知识和数学推理等方面的能力有了显著的提升。

相比于开源模型,闭源模型在学科知识、数学推理、语言知识和常识知识等方面的表现更优秀。

尽管闭源模型在某些知识类维度上的表现优于其他模型,但在伦理对齐和安全可控两个方面,他们的优势相对于开源模型并不明显。这提醒我们,除了追求模型的性能提升,我们还需要关注模型的伦理和安全问题。

大模型提供方在追求知识能力提升的同时,也应该更多地关注价值对齐的问题。随着大模型能力的不断进化,这一问题的重要性将日益凸显。

我们应该拓宽对大模型的评测研究,不仅仅局限于学科知识等知识能力维度,而应该设计更合理和多样化的评测基准和评测体系,推动大模型智善协同发展。


END


TJUNLP
天津大学自然语言处理实验室
 最新文章