要闻 | “超越”(MMCU)中文通用大语言模型测试集预发布

乐活科技 2023-05-11 22:17 北京

近期，中文大语言模型蓬勃发展，但却一直没有出现可应用于评测大模型能力的测试。甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试，并在此基础上制作了一套适配测试中文大模型的数据集，并将其命名为“超越”。

数据集的测试内容涵盖四大领域：医疗、法律、心理学和教育。通过综合评估模型在多个学科上的知识广度和深度，能够帮助研究者更精准地找出模型的缺陷，并对模型的能力进行打分。

简介

自ChatGPT发布以来，大语言模型(LLMs)保持着在计算机科学技术与自然语言处理领域的热度，并且仍不断升温。ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型也接连发布。这些模型有着庞大的数据规模，通过广泛的预训练以达到能够正确理解人类话语和指令并生成类似人类语言的文本的能力。

目前，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU。然而，针对中文大语言模型能力的测试仍然缺失，推出高质量中文评测数据集已经迫在眉睫。

于是，甲骨易AI研究院制作了一个大规模的多任务测试数据集——“超越”(Massive Multitask Chinese Understanding)。“超越”的意义是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状，通过发现大模型的缺陷，从而促进大模型理解中文语言的能力，使其“越”来越强大。

“超越”所包含的题目由来自不同知识分支的单项和多项选择题组成。数据集中的问题是由专业人员从公开免费资源中收集，覆盖学科面广，专业知识难度高，适合用来评估大模型的综合能力。

为了测试数据集的可行性和效果，甲骨易AI研究院在正式公开前已经使用其对目前开源的大模型进行了评测。“超越”数据集预计于2023年5月20日正式公开发布获取方式，具体发布相关信息详见文末。

接下来，将对“超越”数据集(MMCU)中所收录的题目进行介绍，并基于测试结果分析数据在语言模型训练过程中的重要性。

多任务测试

“超越”数据集(MMCU)的测试内容来自医疗、法律、心理学和教育四个大类的题目，包含单项选择和多项选择题，目的旨在使测试过程中模型更接近人类考试的方式。

数据集共收集了11900个问题，将其分成 few-shot开发集和一个测试集。few-shot开发集每个主题有5个问题，共有55个问题；测试集共有11845个问题。

下面分别对不同领域测试题目的学科和子任务示例进行展示。

医疗

医疗类题目来自大学医学专业考试，包括医学三基、药理学、护理学、病理学、临床医学、传染病学、外科学、解剖学等，共有2819个问题。

示例：

首次急性发作的腰椎间盘突出的治疗方法首选：

A. 绝对卧床休息，3 周后戴腰围下床活动

B. 卧床休息，可以站立坐起

C. 皮质类固醇硬膜外注射

D. 髓核化学溶解

法律

法律类题目来自国家统一法律职业资格考试，包括中国特色社会主义法治理论、宪法、中国法律史、国际法、刑法、民法、知识产权法、商法、经济法、劳动与社会保障法等，共有3695个问题。

示例：

根据法律规定，下列哪一种社会关系应由民法调整？

A. 甲请求税务机关退还其多缴的个人所得税

B. 乙手机丢失后发布寻物启事称：“拾得者送还手机，本人当面酬谢”

C. 丙对女友书面承诺：“如我在上海找到工作，则陪你去欧洲旅游”

D. 丁作为青年志愿者，定期去福利院做帮工

心理学

心理学类题目来自心理咨询师考试和研究生入学考试心理学专业基础综合考试，包括心理学概论、人格与社会心理学、发展心理学、心理咨询概论、心理评估、咨询方法等，共有2000个问题。

示例：

把与自己本无关系的事情认为有关，这种临床表现最可能出现于：

A. 被害妄想

B. 钟情妄想

C. 关系妄想

D. 夸大妄想

教育

教育学题目来自中国普通高等学校招生全国统一考试（中国高考），包括语文、数学、物理、化学、政治、历史、地理、生物，共有3331个问题。

示例：

若圆锥的侧面积等于其底面积的3倍，则该圆锥侧面展开图所对应扇形圆心角的度数为（）。

A. 60°

B. 90°

C. 120°

D. 180°

评测过程

依靠以上获取到的优质数据，可以开始对大模型的能力评测。下面将介绍本次评测的一些模型和评测方式。

评测模型：

Bloom系列：bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt

清华大学知识工程和数据挖掘小组：ChatGLM 6B

复旦大学：MOSS 16B

OpenAI：GPT-3.5-turbo

评测方式：zero-shot和few-shot

zero-shot模式：题目直接输入到模型以获取答案并计算准确率。

few-shot模式：先给模型提供5个问题和答案的例子，再附上问题让模型给出答案。

评测结果

通过比较各个模型的 zero-shot准确率（如图1和表1），GPT-3.5-turbo在四个领域的正确率都遥遥领先；MOSS 16B模型虽然有160亿参数，但准确率却只接近随机准确率(大约25%)；bloomz_560m 模型的参数量最小，表现却超越了参数量更大的模型。评测结果体现了大模型的参数量不是评价大模型的唯一标准，在训练过程中数据的质量也应得到重视。

测试结果还表明，所有模型在few-shot模式下都有不同程度的性能下降。例如，与 zero-shot 准确率相比，GPT-3.5-turbo 在语文、化学、政治子任务上的few-shot 准确率都有下降(见表2和表3)。

表2 所有模型在教育子任务上的few-shot准确率

表3 所有模型在教育子任务上的zero-shot准确率

结论

大模型训练通常采用海量互联网公开数据，因此数据高效筛选以及垂直领域高质量数据的标注也非常重要。通过测试发现，在四大领域中，所有模型的平均zero-shot的准确率均未超过0.5，这就证明了目前所有模型的中文训练数据还存在明显不足。

测试的结果表明，更大的模型参数量不一定带来更好的性能，而训练方式和所用数据质量也是至关重要的，需要得到更多的重视。研究者们应该考虑如何设计更好的建模方式以便更好地学习文本数据中蕴含的知识，并且思考如何准备或者标注优质的数据集，去使中文大模型获得更准确的理解能力和文本生成能力。

写在最后

综上，就目前而言，用于评测大模型的高质量中文数据集仍是稀缺资源，但行业内却亟需一种公开、科学的方式来测试大模型的能力。甲骨易AI研究院率先提出要制作出一套高质量的中文数据集，并迅速搜集整合数据资源完成了“超越”数据集，成为国内首家制作中文专门领域多任务数据集的研究单位。

甲骨易AI研究院致力于推动计算机信息科技与自然语言处理领域的发展，希望扩大中文语言在大模型中的应用，促进中文大语言模型的理解力与生成力。“超越”数据集(MMCU)正是为了帮助每一位正在LLMs和NLP方向研究的学者、专家以及工程师，携手促进中文大语言模型向着更准确、更智能、更优质的方向发展。后续，甲骨易AI研究院也依旧会根据反馈持续优化“超越”数据集。

甲骨易AI研究院预计于2023年5月20日14点甲骨易第三空间举办“超越”数据集发布会，我们诚挚地邀请您莅临。

报名链接：https://jinshuju.net/f/ig5SQP

报名二维码：

http://mp.weixin.qq.com/s?__biz=MjM5OTUwNjk3Mw==&mid=2649921007&idx=1&sn=7d21c102427e63470b568c821183dddd

甲骨易

国家语言服务出口基地，国家文化出口重点企业，首批语言服务新三板挂牌企业（股票代码：870633），深耕多语服务20+年，是全球最值得客户信赖的多语言供应商，致力于全球范围内的跨文化沟通。了解更多甲骨易的信息：www.besteasy.com

最新文章

《红色一号：冬日行动》|圣诞合家欢电影又添新成员

《姥姥的外孙》| 为什么是潮汕文化？

《神偷奶爸4》| 甲骨易多语言本地化又增香蕉语

中新经贸 | 甲骨易LanguageX 智能体首秀，本地化视角看“文化+科技”的诗意当下

2024 CSA Research排名发布 | 甲骨易连续三年跻身全球Top 100

要闻 | 甲骨易CEO姜征应邀出席智能语言服务产业学院和人工智能翻译实验室成立仪式

“AI教母”李飞飞 | 当AI开始睁眼看世界

《神秘友友》| “小贱贱”陪伴开启欢乐治愈的奇幻视听盛宴

公益力量 | 「这个」六一，愿你拥有无与伦比的美好

《特技狂人》 | 一名特技演员的自白

要闻 | 甲骨易CEO姜征受邀出席四省边际首届竖屏短剧产业发展高峰研讨会

《疯狂星期一》| 我真的...好喜欢上班啊！

《哥斯拉大战金刚2》 | 周末无事，不如一起“打怪兽”吧

《挑战》| 用一部电影见证历史

甲骨易助力贾玲新作《热辣滚烫》出海｜让世界认识她，理解她

要闻 | 北京市商务局领导莅临甲骨易国家语言服务出口基地调研指导

年度报告 | 年末了，写给所有与甲骨易同行的朋友们

《海王2：失落的王国》 | 被15万人期盼的他回来了

要闻 | 甲骨易荣幸成为中国信通院大模型基准测试体系“方升”首批合作伙伴

要闻 | 甲骨易董事长姜征荣耀成为工信部人工智能关键技术重点实验室委员

全球变暖 | 我们都生活在漫长的季节里

基操 | 一个词戳破2023年AI时代最后一层窗户纸

要闻 | 甲骨易应邀出席“联通世界·感知北京”北京-新加坡文化产业交流

畅谈 | ChatGPT将替代人工，大规模语言服务者面临失业？

公益行动｜甲骨易定向帮扶鄂伦春旗乌鲁布铁新丰村

要闻 | 西安外国语大学与甲骨易国家语言服务出口基地联合建立学生实习实践基地

要闻 | 民进中央企业家联谊会在京会长座谈会在甲骨易国家语言服务出口基地成功召开

持续发力｜甲骨易接棒为第四届亚残运会提供语言服务支持

重阳节 | 感谢每一位优秀员工背后无私奉献的人

要闻 | 甲骨易国家语言服务出口基地圆满完成亚运会语言服务支持工作

生日快乐 | 发光吧，勇敢的甲骨易人！

要闻 | 今日开幕！甲骨易为第19届杭州亚运会提供多语言服务支持

要闻 | 山东省济南市章丘区人民政府区长边祥为一行莅临甲骨易国家语言服务出口基地

《GT赛车：极速狂飙》——梦想终因热爱成真

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

CG-Eval | 首个中文大模型多学科生成能力自动化评测基准正式发布

要闻 | 甲骨易荣誉入选2023-2024年度国家文化出口重点企业

要闻 | 甲骨易助力世界大学校长论坛成功举办

更适合中国宝宝体质的运动竟然是……！

冷门语言盘点计划·世界语

猛男最爱！谁说只有女孩才能钟情芭比啦

要闻 | 上海外国语大学“琢玉行——上外学子赴京职业实训营”到访甲骨易国家语言服务出口基地

《闪电侠》| DCEU的十年之约

儿童节活动 | 趣味六一·与你“童”享

要闻 | 中央财经大学外国语学院与甲骨易国家语言服务出口基地举行合作协议签约仪式

国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

要闻 | “超越”(MMCU)中文通用大语言模型测试集预发布

活动 | 2023年4月甲骨易划船机比赛顺利举办

报道｜影视译制与国际传播沙龙在甲骨易国家语言服务出口基地成功举办

要闻 | 北京中医药大学人文学院到访甲骨易国家语言服务出口基地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉