甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

乐活 2023-08-30 13:11 北京

夕小瑶科技说分享
Lucy，是距今320万年最早的人类祖先，也是被输入某种“物质”后大脑开发到100%的超智能人类，能感知宇宙万物，拥有人类所有知识。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物质“。

随着大语言模型不断调优，大模型拥有了更优越的理解人类话语、指令并且生成类似人类语言文本的能力。机器和人类终归不同，如何最快速地判断机器是否能正确理解人类的知识和语言，成为我们共同关注的问题。

由此，甲骨易AI研究院推出了中文大语言模型成熟度评测——LucyEval，能够通过对模型各方面能力的客观测试，找到模型的不足，帮助设计者和工程师更加精准地调整、训练模型，助力大模型不断迈向更智能的未来。

Lucy的每一个字母背后都代表了不同的意义，包含着甲骨易AI研究院设计LucyEval时所考量的维度和坚持的理念。

L - Linguistic Fundamentals: 基础理解能力
U - Utilization of Knowledge: 知识运用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含义：

Linguistic Fundamentals (基础理解能力) ：描述模型对基础语法、词汇和句子结构的理解程度。
Utilization of Knowledge (知识运用能力)：衡量模型在回答问题或生成文本时如何运用其内嵌的知识。

Cognitive Reasoning (推理能力)：评价模型是否能从给定的信息中进行逻辑推断或解决复杂问题。

Yield of Specialized Outputs (特殊生成能力）：测试模型在生成特定类型或风格的文本（例如诗歌、代码或专业文章）时的效能。

目前，LucyEval已发布如下两项测试集。

大规模多任务中文理解能力测试

Massive Multitask Chinese Understanding

2023年4月25日，针对中文大模型理解能力测试缺失且推出高质量中文评测数据集迫在眉睫这一现状，甲骨易AI研究院率先发布（首发）了一套大规模多任务中文大模型理解能力测试。
测试所包含的题目来自医疗、法律、心理学和教育四个科目的11900个问题，包含单项选择和多项选择题，目的旨在使测试过程中模型更接近人类考试的方式，覆盖学科面广，专业知识难度高，适合用来评估大模型的综合理解能力。

论文链接：
https://arxiv.org/abs/2304.12986

中文大模型多学科生成能力自动化评测基准

Chinese Generation Evaluation

目前领域内的评测大多都只针对模型的中文理解能力，通过选择题由模型直接生成答案，或者提取模型对各个答案选项的输出概率。从评测大模型的生成能力的角度，这些评测基准就存在很大的局限性。

在率先发布国内首个中文大模型理解能力测试后，甲骨易AI研究院于8月9日正式发布一套自动测评中文大模型多学科生成能力的评测基准。

基准包含11000道题目，涵盖科技工程、人文与社会科学、数学计算、医师资格考试、司法考试、注册会计师考试等科目下的55个子科目。题型分为名词解释、简答题和计算题三种类型。同时，甲骨易AI研究院还设计了一套复合打分方式Gscore，使评分过程更加合理、科学。

甲骨易AI研究院使用本评测基准对以下模型进行了zero-shot测试，包括GPT-4、ChatGLM-Std、讯飞星火Spark Desk、文心一言ERNIE Bot等。

从所有模型在六大类科目的平均分来看，GPT-4取得最高分41.12，比最低分32.28高出8.84分。

受测模型在其他学科的表现详见评测地址：

http://lucyeval.besteasy.com/

未来，甲骨易AI研究院将矢志不移地为提升中文大语言模型能力为目标，持续研究适应其发展的测试集，期待与同样关注大语言模型发展的业界同仁携手共建。

论文链接：
https://arxiv.org/abs/2308.04823

http://mp.weixin.qq.com/s?__biz=MjM5OTUwNjk3Mw==&mid=2649921463&idx=1&sn=a0e9ed0e57f1f4dfd6c5ea03043f0f3c

甲骨易

国家语言服务出口基地，国家文化出口重点企业，首批语言服务新三板挂牌企业（股票代码：870633），深耕多语服务20+年，是全球最值得客户信赖的多语言供应商，致力于全球范围内的跨文化沟通。了解更多甲骨易的信息：www.besteasy.com

最新文章

《红色一号：冬日行动》|圣诞合家欢电影又添新成员

《姥姥的外孙》| 为什么是潮汕文化？

《神偷奶爸4》| 甲骨易多语言本地化又增香蕉语

中新经贸 | 甲骨易LanguageX 智能体首秀，本地化视角看“文化+科技”的诗意当下

2024 CSA Research排名发布 | 甲骨易连续三年跻身全球Top 100

要闻 | 甲骨易CEO姜征应邀出席智能语言服务产业学院和人工智能翻译实验室成立仪式

“AI教母”李飞飞 | 当AI开始睁眼看世界

《神秘友友》| “小贱贱”陪伴开启欢乐治愈的奇幻视听盛宴

公益力量 | 「这个」六一，愿你拥有无与伦比的美好

《特技狂人》 | 一名特技演员的自白

要闻 | 甲骨易CEO姜征受邀出席四省边际首届竖屏短剧产业发展高峰研讨会

《疯狂星期一》| 我真的...好喜欢上班啊！

《哥斯拉大战金刚2》 | 周末无事，不如一起“打怪兽”吧

《挑战》| 用一部电影见证历史

甲骨易助力贾玲新作《热辣滚烫》出海｜让世界认识她，理解她

要闻 | 北京市商务局领导莅临甲骨易国家语言服务出口基地调研指导

年度报告 | 年末了，写给所有与甲骨易同行的朋友们

《海王2：失落的王国》 | 被15万人期盼的他回来了

要闻 | 甲骨易荣幸成为中国信通院大模型基准测试体系“方升”首批合作伙伴

要闻 | 甲骨易董事长姜征荣耀成为工信部人工智能关键技术重点实验室委员

全球变暖 | 我们都生活在漫长的季节里

基操 | 一个词戳破2023年AI时代最后一层窗户纸

要闻 | 甲骨易应邀出席“联通世界·感知北京”北京-新加坡文化产业交流

畅谈 | ChatGPT将替代人工，大规模语言服务者面临失业？

公益行动｜甲骨易定向帮扶鄂伦春旗乌鲁布铁新丰村

要闻 | 西安外国语大学与甲骨易国家语言服务出口基地联合建立学生实习实践基地

要闻 | 民进中央企业家联谊会在京会长座谈会在甲骨易国家语言服务出口基地成功召开

持续发力｜甲骨易接棒为第四届亚残运会提供语言服务支持

重阳节 | 感谢每一位优秀员工背后无私奉献的人

要闻 | 甲骨易国家语言服务出口基地圆满完成亚运会语言服务支持工作

生日快乐 | 发光吧，勇敢的甲骨易人！

要闻 | 今日开幕！甲骨易为第19届杭州亚运会提供多语言服务支持

要闻 | 山东省济南市章丘区人民政府区长边祥为一行莅临甲骨易国家语言服务出口基地

《GT赛车：极速狂飙》——梦想终因热爱成真

甲骨易AI研究院推出中文大语言模型评测集合-LucyEval，让智能有迹可循！

CG-Eval | 首个中文大模型多学科生成能力自动化评测基准正式发布

要闻 | 甲骨易荣誉入选2023-2024年度国家文化出口重点企业

要闻 | 甲骨易助力世界大学校长论坛成功举办

更适合中国宝宝体质的运动竟然是……！

冷门语言盘点计划·世界语

猛男最爱！谁说只有女孩才能钟情芭比啦

要闻 | 上海外国语大学“琢玉行——上外学子赴京职业实训营”到访甲骨易国家语言服务出口基地

《闪电侠》| DCEU的十年之约

儿童节活动 | 趣味六一·与你“童”享

要闻 | 中央财经大学外国语学院与甲骨易国家语言服务出口基地举行合作协议签约仪式

国内首个大模型评测数据集（MMCU）问世加速完善国产AI产业图谱

要闻 | “超越”(MMCU)中文通用大语言模型测试集预发布

活动 | 2023年4月甲骨易划船机比赛顺利举办

报道｜影视译制与国际传播沙龙在甲骨易国家语言服务出口基地成功举办

要闻 | 北京中医药大学人文学院到访甲骨易国家语言服务出口基地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉