中国信通院发布“方升”大模型基准测试系列成果

文摘 2024-11-18 15:49 北京

随着国内外大模型技术和能力的提升，大模型评测也在产学研各界已得到蓬勃的发展。通过设计合理的任务、数据集和指标，对大模型进行基准测试，是当前定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平，指引未来学术研究，牵引产品研发、支撑行业应用，还可以辅助监管治理，也有利于增进社会公众对人工智能的正确认知，是促进人工智能技术产业发展的重要抓手。但随着大模型能力的快速提升，产业化落地应用逐渐增多，对大模型基准测试提出了更高要求，亟需创新性的评测体系，高质量的测试数据集，自动化的评测方法，科学、公正、透明的大模型基准测试环境。

2023年至今，在工信部人工智能关键技术和应用评测实验室和人工智能产业发展联盟（AIIA）评估工作组的指导下，中国信息通信研究院已对产学研各界已发布的500+大模型基准测试数据集和方法进行梳理和深入剖析，全面吸收产学研各界的优秀成果，打造全面和坚实的“方升”大模型基准测试体系。在大模型测试标准方面，推动形成5项大模型测试标准，包括1项ITU国际标准，1项行业标准和3项团体标准。在测试数据和平台方面，构建了动态测试数据库，积累测试数据集260个，共计550万条，研发自适应动态测试系统和测试数据自动生成工具。在大模型监控测试方面，2024年以来已对国内外开闭源大模型开展4轮能力监测，形成了较为成熟的评测方法，评测结果的科学性和公正性已有一定保证。

2024年11月12日，在北京召开的中国人工智能产业发展联盟（AIIA）第十三次全体会议上，中国信通院发布“方升”大模型基准测试体系阶段性工作成果。

解读“方升”大模型基准测试体系测试结果。在中国信通院最新轮次测试中，共测试了64个大语言模型。其中，国内大模型46个，国外大模型18个，包括GPT-4o、OpenAI o1、百度文心一言、腾讯混元、蚂蚁百灵大模型等闭源商业大模型29个，以及Qwen2.5、LlaMA3等开源大模型35个。根据2024年10月的测试结果，国内大模型能力发展迅速，但在复杂推理、指令遵循等场景上仍存在短板。

联合中国信息通信研究院、北京智源人工智能研究院、中国移动、中国电信、中国联通、国家电网、南方电网、中国中车集团、煤炭科学研究总院、广州数据集团等共同发布大模型基准测试标准《大语言模型基准测试体系框架及总体要求》。为推进我国在人工智能领域的标准化建设，中国人工智能产业发展联盟、中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室联合国内重点科研机构、央国企和大模型企业共同编制该标准。其规定了大语言模型基准测试的体系框架，包括大语言模型的基准测试指标、测试数据集、测试流程和测试工具。经过近一年时间多轮的测试实践，标准的科学性和有效性已得到充分验证。

同时，会上也公开了“方升”大模型基准测试数据集，以提升基准测试的透明度。该测试数据集包含15000条测试数据集，覆盖理解、生成、推理、数学、知识、学科、代码、多语言、角色扮演、工具使用、指令遵循、可靠性、鲁棒性、心智和情商15个测试维度，通过数据集来源、语言种类、测试维度、题目难度、测试次数等多个标签对测试数据进行体系化管理。

联合百度、腾讯、华为、阿里、讯飞、智谱、蚂蚁、火山引擎、商汤科技、360、零一万物、阶跃星辰、MiniMax等大模型厂商发布《构建科学、公正、透明的大模型基准测试生态倡议书》。目前，产学研各界陆续发布了一系列评测数据集、评测框架和评测榜单，随之出现了一些基于基准测试的不良现象，对大模型技术的快速落地带来了影响。因此，经人工智能产业发展联盟指导，中国信息通信研究院联合国内主流人工智能企业，共同呼吁尽快完善科学、公正、透明的大模型基准测试生态，促进整个基准测试行业的健康、可持续发展。

当前，中国信通院已形成包括测试准备、测试执行和测试反馈的大模型测试流程。在测试准备阶段，与参与测试的大模型企业对测试方案和测试数据集进行充分研讨，确保测试过程的科学性和有效性。在测试执行阶段，采用自适应动态测试技术，解决评测数据集难管理、大模型测试“刷榜”等问题，高效、精准挖掘大模型缺陷。在测试反馈阶段，通过测试报告将测试结果、模型优劣分析，BadCase和改进建议等及时反馈给参测大模型企业。

当前，大模型基准测试仍存在诸多开放性的问题，需要产学研各界紧密合作。中国信息通信研究院将持续加强大模型评测技术研发投入，多措并举加强评测体系的推广应用，不断提升大模型评测公信力和权威性，为前沿人工智能技术和赋能新型工业化提供有力支撑。欢迎成为“方升”大模型基准测试体系合作伙伴，共同建设科学、公正大模型基准测试体系和生态，为大模型行业健康有序发展提供有力支撑。

联系人

韩老师 15201696937（微信同号）

hanxu5@caict.ac.cn

张老师 13702105361（微信同号）

zhangyuanyuan5@caict.ac.cn

李老师 18611353631（微信同号）

lisun@caict.ac.cn

- END -

AI工程化推进委员会

2017年10月初，工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室（以下简称“部重点实验室”）。
中国信通院为进一步推动我国人工智能的工程化进程，依托部重点实验室成立了AI工程化推进委员会。委员会聚焦人工智能开发工具和平台，AI研发运营和管理，大模型应用，知识计算应用和AI数据集治理等技术方向，以产业活动、研究报告、标准和评估、最佳实践等手段，推动人工智能工程化相关的工具、系统、流程和治理体系的完善。
企业单位申请链接：

https://mp.weixin.qq.com/s/nZ_ZkBtk18lRyHuCkGEqCg

http://mp.weixin.qq.com/s?__biz=Mzg3ODU5NDI0MQ==&mid=2247494235&idx=1&sn=ac88937590a6d18a700c7ad01366c3e9

可信AI评测

“可信AI评测”是依托于中国信息通信研究院开展的第三方评估测试工作，涵盖人工智能产品服务评测、应用成熟度评测和可信风险评估三大模块，目前已完成人工智能评测标准体系，拥有权威的测试数据集和软硬件环境，可为企业单位出具技术产品测试报告和证书。

最新文章

紫光银河大模型平台通过可信AI评估，助力大模型落地！

自主创新引领未来，AI4SE创新巡航活动走进华为成功举办

共谋企业智能化转型新篇章——人工智能中台标准公开研讨会顺利召开

2024 AIIA先锋案例 | AI4SE银弹案例系列分享第二期即将举办

“2024大模型技术与应用创新论坛”12月12日，北京见！

探索MaaS平台产品能力，首期MaaS系列沙龙顺利召开

中国信通院牵头制定的8项大模型标准正式发布

首批首家通过！中国电信集团有限公司通过中国信通院通信大模型专项评估

中国信通院发布“方升”大模型基准测试系列成果

政务推进组重磅发布 | 首个《政企业务智能化成熟度模型》标准

可信AI观察 | 大模型一体机加速大模型落地应用

大模型平台多项标准发布，大模型基础设施高质量推进计划启动

中国信通院可信AI智能体多项评估进行中

启动大模型应用生态培育行动计划，助力大模型交付落地

关于征集端侧智能系列标准参编单位的通知

政务推进组重磅发布 |《政务垂类模型算力基础底座及典型应用建设指南》

关于召开“模型服务（MaaS）系列技术沙龙之产品篇”的通知

关于征集大模型落地路线系列标准参编单位的通知

AI4SE标准体系持续升级，应用效能度量标准编制启动会顺利召开

AIIA全会预热 | “大模型基础设施高质量发展产业洞察”主题分享

浩鲸科技通过可信AI智能体（AI Agent）平台和工具专项评估，获当前最高评级

可信AI标准｜关于征集《智能化成熟度评估模型第3部分：智慧农业》标准参编单位的通知

电信数智通过可信AI智能体（AI Agent）平台和工具专项评估，获当前最高评级

会议通知 | 人工智能中台标准研讨会即将召开

可信AI大模型-康养大模型专项首轮评估正式启动

关于召开“模型服务（MaaS）系列技术沙龙之产品篇”的通知

可信AI大模型-城市治理大模型专项首轮评估正式启动

代理型人工智能（Agentic AI）技术沙龙暨标准研讨会顺利召开

2024 AIIA先锋案例 | AI4SE银弹案例分享系列直播首期圆满落幕

火山引擎通过可信AI智能体（AI Agent）平台和工具专项评估，获当前最高评级

探索高质量大模型推理平台建设路径——大模型推理标准第四次研讨会即将召开

关于征集水利大模型标准参编单位的通知

中国信通院可信AI大模型服务平台专项评估正式启动

可信AI评估 | 关于启动可信AI遥感大模型评估的通知

全会预热 | 首个政企业务智能化成熟度标准即将发布，加速行业数智化转型

中国信通院可信AI端侧大模型第二轮评估正式启动

重磅发布 | 全国政务服务便民热线创新发展典型案例（2023-2024）

AIIA 科学智能工作组发布产业研究报告，推动科研智能高质量发展

案例说 | 中国信通院MaaS加速企业大模型落地

可信AI智能体-手机智能体专项评估正式启动

家电行业首家！海信通过中国信通院可信AI多模态大模型专项评估

直播预告 | 2024 AIIA先锋案例AI4SE银弹案例分享系列直播第一期

中国信通院可信AI财税大模型首轮评估正式启动

首批！可信AI多模态大模型专项评估正式启动

可信AI标准｜关于征集《智能化成熟度评估模型第3部分：智慧农业》标准参编单位的通知

关于召开代理型人工智能（Agentic AI）技术沙龙暨标准研讨会的通知

可信AI评估 | 关于启动可信AI气象大模型评估的通知

首届“数据标注产业大会暨供需对接会”在京顺利召开

聚焦证券、保险领域，金融大模型系列标准研讨会顺利召开

可信AI智能体 | 政务智能体首轮标准符合性验证正式启动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉