国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

乐活 2023-05-23 17:48 北京

在当下人工智能领域，大语言模型将为各行各业带来颠覆性的效率革命和体验升级，这已经成为了业界共识。借此，一场由ChatGPT引发的“百模大战”早已轰轰烈烈地拉开序幕，纵观整个科技圈，几乎所有高科技公司都在打造自己的大语言模型，更有专家断言，不出意外，将很快升级为“千模大战”。

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。5月20日，一场以“大模型实际应用与场景化落地”为主题的研讨沙龙暨“超越”MMCU测试数据集产品发布会在甲骨易第三空间拉开序幕。

本次沙龙由甲骨易AI研究院主办，来自中科院、北京大学、北京外国语大学、哈萨克恩斯坦国立大学等学术界代表，中关村软件园、小米、咪咕、快手、商汤、霖珑云、博思众智、智谱华章、中航出版传媒等产业界代表以及多家科技媒体代表出席了本次沙龙活动，并针对大语言模型的数据量与评价标准等相关话题，畅所欲言，展开了热烈的讨论。

迈向认知智能演进的过程

在本次沙龙活动中，北京外国语大学人工智能与人类语言重点实验室主任、多语自然语言处理研究中心主任李佐文进行了精彩的开场致辞。李佐文认为，语言智能包括对人类语言机理的研究以及对自然语言的技术处理研究两大板块，这两个领域都应深入研究，并肩发展，机器方能有望像人一样理解自然的语言，生成自然的语言。来自甲骨易的数据服务事业部负责人王敏在致辞中提及，甲骨易创始之初正是为了搭建人与人之间的沟通交流，跨越语言跨越文化之间的障碍，而当下正是要搭建人与机器，甚至是机器与机器之间的沟通桥梁——这也正是甲骨易AI研究院成立的初心。

图1：北京外国语大学人工智能与人类语言重点实验室主任李佐文致辞

图2：甲骨易数据服务事业部负责人王敏致辞

众所周知，人工智能技术在飞速演进。沙龙上，来自小米公司的大模型数据负责人彭力进行了以《小米遇上大模型》为主题的精彩演讲，他介绍了业界中定义的人工智能产业发展演变的四个层面：第一层叫运算智能层（早已实现），第二层叫感知智能层（目前已在多领域接近人类水平），第三层是认知智能（尚在推进中），第四层才是通用智能层（尚有距离）。其中，第三层的认知智能指的是在感知智能的基础上进一步的理解、思考和解释。他指出，我们正在向通用人工智能演进，而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点，并展示了小米在大语言模型领域的最新进展。

图3：小米大模型数据负责人彭力发言

实际上，ChatGPT最早主要是针对文本语料进行大规模的学习，后来数据参数达到了数千亿量级，便有了大语言模型的说法。彭力表示，在训练大语言模型的过程中，诸如广告等噪声数据，以及大量的同质化语料等因素都会影响训练的效果，甚至还会面临数据版权的风险。来自北京外国语大学的李佐文则在分享中直言，业界通过自然语言处理等办法，竭尽全力想让机器理解人类的语言，依旧是挑战重重。

国产中文大语言模型体系亟待完善

我们需要看清这样的现实，国内大语言模型和国际一流仍有差距，超越并非一朝一夕就可以实现。当下，国内厂商往往采取的是模仿与跟随策略，尽管未来有望弯道超车，甚至后来者居上，但当下就有一些厂商宣称将实现通用模型对标ChatGPT，中文大模型能够超越ChatGPT的当前版本，与之旗鼓相当，并在多领域做到业界领先，无疑这样的说辞，也只是停留在口号之上，尚未经过实践验证。

尽管对标ChatGPT等豪言壮语已响彻耳畔，但只凭借厂商只言片语的宣传描述，以及对特定数据评测案例的展示，其数据样本远远不足以及掺入了厂商的主观意愿，导致现有数据资料不足以展现各大厂商之间大模型技术能力之间的差异性，也使得用户很难真正了解各家技术能力的优势所在。在这样的背景之下，许多优秀的国产大模型被淹没在这种噪声当中，严重制约了国产大模型乃至人工智能产业的发展。因此，如何发现大模型的缺陷，以及如何更好地理解包括中文在内的人类语言文本？.....这一系列问题摆在了当下以ChatGLM、 MOSS、文心一言、通义千问、商量、星火等众多具备中文能力的大模型厂商面前。

鉴于国外率先开启了大模型研究，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU。然而针对中文大语言模型，却仍处于空白。需要指出的是，国外的很多机构研究发现，数据量与分布对于训练模型的配比方式非常重要，Common crawl这种大数据集语言分布是不均匀的，英文占了46%，中文只占了5%。这样配比导致后续的大模型进行参照训练时，会发现在中文语料缺失的情况下，中文的理解能力是欠缺的，国内研究机构和人工智能企业都在去增补这些中文语料来提升中文能力。

与此同时，对理解中文的大语言模型及时加以客观公正的评价，使其“越”来越强大，也成为了当务之急。因此，甲骨易推出“超越”MMCU数据集恰逢其时，通过综合评估模型在多个学科上的知识广度和深度，能够帮助研究者更精准地找出模型的缺陷，并对模型的能力进行打分。

“把大模型当成一个真正的人类”

在分享过程中，来自甲骨易AI研究院的首席研究员Felix坦言，要评价这些大语言模型的基础能力，实际上是一个非常难以解决的问题。甲骨易凭借多年数据服务行业探索的技术优势，率先推出的针对于中文预训练大模型的大规模多任务评测数据集以及相应的评测方法，旨在衡量中文大模型在处理众多任务上的准确度，主要覆盖医疗、法律、心理学和教育四大领域，题目形式涵盖单项选择和多项的选择题，共包含11900个问题。

图4：甲骨易AI研究院 Felix发言

“我们是把大模型当作一个真正的人类来看待，”Felix如是说，测试集之所以涉及语、数、物理、化学这些科目，因为人工智能必须像人类一样，具备对于世界的基础的认知；而医疗、法律、心理学专业领域则是将大模型视为专业人士进行考核。通过对多领域知识广度与深度的测试，甲骨易AI研究院可以帮助技术研发人员发现大语言模型在哪些领域有缺陷，或者说可能在其整体上都有缺陷。

沙龙上，中国科学院大学网络数据重点实验室的咸宁先生则针对MMCU测试集的使用情况进行分享，解释了测试数据集的分析原理，对几大模型的测试成果进行了展示与客观分析，并指出了超越MMCU测试数据集当下尚存在一些亟待解决的问题。

图5：中国科学院大学网络数据重点实验室咸宁发言

通过发布会召开前开展的大模型测试发现，在本应有明显优势的语文科目中，国产大模型的表现却差强人意。Felix指出，现在很多模型评估还是处于人工评估阶段，甲骨易推出“超越”MMCU数据集的初衷是希望实现对大模型进行大规模的评估。当下的评测结果可能存在随机误差，但未来还将持续优化评测方式并扩充评测领域。

携手共建，未来可期

自ChatGPT的惊艳亮相，人类生活的方方面面已发生了巨变。大模型仍有许多难关亟待解决，借助超越MMCU评测数据集，一举打破市面上所有的大语言模型只能基于英文数据集去进行测试的现状，中文大语言模型将有望构建起一个完善的评测的体系，通过发现提升大语言的缺陷提升大语言模型对于中文的理解能力，更好地服务于全球的中文用户。

图6：大模型实际应用与场景化落地沙龙现场

“大模型的训练以及大规模评估需要大量算力。”甲骨易AI研究院最后表示，愿与业界更多机构联手，一道携手推进大模型的发展，加速人工智能技术的产学研用进程。超越评测数据集的发布，只是起点，甲骨易还将大有可为。更多精彩，敬请期待甲骨易第三空间未来更多活动。

MMCU论文链接：

https://arxiv.org/abs/2304.12986

http://mp.weixin.qq.com/s?__biz=MjM5OTUwNjk3Mw==&mid=2649921047&idx=1&sn=f5a75b3fe615a5c9f76787a36f280ad5

甲骨易

国家语言服务出口基地，国家文化出口重点企业，首批语言服务新三板挂牌企业（股票代码：870633），深耕多语服务20+年，是全球最值得客户信赖的多语言供应商，致力于全球范围内的跨文化沟通。了解更多甲骨易的信息：www.besteasy.com

最新文章

《红色一号：冬日行动》|圣诞合家欢电影又添新成员

《姥姥的外孙》| 为什么是潮汕文化？

《神偷奶爸4》| 甲骨易多语言本地化又增香蕉语

中新经贸 | 甲骨易LanguageX 智能体首秀，本地化视角看“文化+科技”的诗意当下

2024 CSA Research排名发布 | 甲骨易连续三年跻身全球Top 100

要闻 | 甲骨易CEO姜征应邀出席智能语言服务产业学院和人工智能翻译实验室成立仪式

“AI教母”李飞飞 | 当AI开始睁眼看世界

《神秘友友》| “小贱贱”陪伴开启欢乐治愈的奇幻视听盛宴

公益力量 | 「这个」六一，愿你拥有无与伦比的美好

《特技狂人》 | 一名特技演员的自白

要闻 | 甲骨易CEO姜征受邀出席四省边际首届竖屏短剧产业发展高峰研讨会

《疯狂星期一》| 我真的...好喜欢上班啊！

《哥斯拉大战金刚2》 | 周末无事，不如一起“打怪兽”吧

《挑战》| 用一部电影见证历史

甲骨易助力贾玲新作《热辣滚烫》出海｜让世界认识她，理解她

要闻 | 北京市商务局领导莅临甲骨易国家语言服务出口基地调研指导

年度报告 | 年末了，写给所有与甲骨易同行的朋友们

《海王2：失落的王国》 | 被15万人期盼的他回来了

要闻 | 甲骨易荣幸成为中国信通院大模型基准测试体系“方升”首批合作伙伴

要闻 | 甲骨易董事长姜征荣耀成为工信部人工智能关键技术重点实验室委员

全球变暖 | 我们都生活在漫长的季节里

基操 | 一个词戳破2023年AI时代最后一层窗户纸

要闻 | 甲骨易应邀出席“联通世界·感知北京”北京-新加坡文化产业交流

畅谈 | ChatGPT将替代人工，大规模语言服务者面临失业？

公益行动｜甲骨易定向帮扶鄂伦春旗乌鲁布铁新丰村

要闻 | 西安外国语大学与甲骨易国家语言服务出口基地联合建立学生实习实践基地

要闻 | 民进中央企业家联谊会在京会长座谈会在甲骨易国家语言服务出口基地成功召开

持续发力｜甲骨易接棒为第四届亚残运会提供语言服务支持

重阳节 | 感谢每一位优秀员工背后无私奉献的人

要闻 | 甲骨易国家语言服务出口基地圆满完成亚运会语言服务支持工作

生日快乐 | 发光吧，勇敢的甲骨易人！

要闻 | 今日开幕！甲骨易为第19届杭州亚运会提供多语言服务支持

要闻 | 山东省济南市章丘区人民政府区长边祥为一行莅临甲骨易国家语言服务出口基地

《GT赛车：极速狂飙》——梦想终因热爱成真

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

CG-Eval | 首个中文大模型多学科生成能力自动化评测基准正式发布

要闻 | 甲骨易荣誉入选2023-2024年度国家文化出口重点企业

要闻 | 甲骨易助力世界大学校长论坛成功举办

更适合中国宝宝体质的运动竟然是……！

冷门语言盘点计划·世界语

猛男最爱！谁说只有女孩才能钟情芭比啦

要闻 | 上海外国语大学“琢玉行——上外学子赴京职业实训营”到访甲骨易国家语言服务出口基地

《闪电侠》| DCEU的十年之约

儿童节活动 | 趣味六一·与你“童”享

要闻 | 中央财经大学外国语学院与甲骨易国家语言服务出口基地举行合作协议签约仪式

国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

要闻 | “超越”(MMCU)中文通用大语言模型测试集预发布

活动 | 2023年4月甲骨易划船机比赛顺利举办

报道｜影视译制与国际传播沙龙在甲骨易国家语言服务出口基地成功举办

要闻 | 北京中医药大学人文学院到访甲骨易国家语言服务出口基地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

国内首个大模型评测数据集（MMCU）问世 加速完善国产AI产业图谱

国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱