中国信通院发布“方升”大模型基准测试系列成果

文摘   2024-11-18 15:49   北京  




随着国内外大模型技术和能力的提升,大模型评测也在产学研各界已得到蓬勃的发展。通过设计合理的任务、数据集和指标,对大模型进行基准测试,是当前定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。但随着大模型能力的快速提升,产业化落地应用逐渐增多,对大模型基准测试提出了更高要求,亟需创新性的评测体系,高质量的测试数据集,自动化的评测方法,科学、公正、透明的大模型基准测试环境。


2023年至今,在工信部人工智能关键技术和应用评测实验室和人工智能产业发展联盟(AIIA)评估工作组的指导下,中国信息通信研究院已对产学研各界已发布的500+大模型基准测试数据集和方法进行梳理和深入剖析,全面吸收产学研各界的优秀成果,打造全面和坚实的“方升”大模型基准测试体系在大模型测试标准方面,推动形成5项大模型测试标准,包括1项ITU国际标准,1项行业标准和3项团体标准。在测试数据和平台方面,构建了动态测试数据库,积累测试数据集260个,共计550万条,研发自适应动态测试系统和测试数据自动生成工具。在大模型监控测试方面,2024年以来已对国内外开闭源大模型开展4轮能力监测,形成了较为成熟的评测方法,评测结果的科学性和公正性已有一定保证。


2024年11月12日,在北京召开的中国人工智能产业发展联盟(AIIA)第十三次全体会议上,中国信通院发布“方升”大模型基准测试体系阶段性工作成果。



解读“方升”大模型基准测试体系测试结果。在中国信通院最新轮次测试中,共测试了64个大语言模型。其中,国内大模型46个,国外大模型18个,包括GPT-4o、OpenAI o1、百度文心一言、腾讯混元、蚂蚁百灵大模型等闭源商业大模型29个,以及Qwen2.5、LlaMA3等开源大模型35个。根据2024年10月的测试结果,国内大模型能力发展迅速,但在复杂推理、指令遵循等场景上仍存在短板。


联合中国信息通信研究院、北京智源人工智能研究院、中国移动、中国电信、中国联通、国家电网、南方电网、中国中车集团、煤炭科学研究总院、广州数据集团等共同发布大模型基准测试标准《大语言模型基准测试体系框架及总体要求》。为推进我国在人工智能领域的标准化建设,中国人工智能产业发展联盟、中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室联合国内重点科研机构、央国企和大模型企业共同编制该标准。其规定了大语言模型基准测试的体系框架,包括大语言模型的基准测试指标、测试数据集、测试流程和测试工具。经过近一年时间多轮的测试实践,标准的科学性和有效性已得到充分验证。


同时,会上也公开了“方升”大模型基准测试数据集,以提升基准测试的透明度。该测试数据集包含15000条测试数据集,覆盖理解、生成、推理、数学、知识、学科、代码、多语言、角色扮演、工具使用、指令遵循、可靠性、鲁棒性、心智和情商15个测试维度,通过数据集来源、语言种类、测试维度、题目难度、测试次数等多个标签对测试数据进行体系化管理。


联合百度、腾讯、华为、阿里、讯飞、智谱、蚂蚁、火山引擎、商汤科技、360、零一万物、阶跃星辰、MiniMax等大模型厂商发布《构建科学、公正、透明的大模型基准测试生态倡议书》。目前,产学研各界陆续发布了一系列评测数据集、评测框架和评测榜单,随之出现了一些基于基准测试的不良现象,对大模型技术的快速落地带来了影响。因此,经人工智能产业发展联盟指导,中国信息通信研究院联合国内主流人工智能企业,共同呼吁尽快完善科学、公正、透明的大模型基准测试生态,促进整个基准测试行业的健康、可持续发展。


当前,中国信通院已形成包括测试准备、测试执行和测试反馈的大模型测试流程。在测试准备阶段,与参与测试的大模型企业对测试方案和测试数据集进行充分研讨,确保测试过程的科学性和有效性。在测试执行阶段,采用自适应动态测试技术,解决评测数据集难管理、大模型测试“刷榜”等问题,高效、精准挖掘大模型缺陷。在测试反馈阶段,通过测试报告将测试结果、模型优劣分析,BadCase和改进建议等及时反馈给参测大模型企业。


当前,大模型基准测试仍存在诸多开放性的问题,需要产学研各界紧密合作。中国信息通信研究院将持续加强大模型评测技术研发投入,多措并举加强评测体系的推广应用,不断提升大模型评测公信力和权威性,为前沿人工智能技术和赋能新型工业化提供有力支撑。欢迎成为“方升”大模型基准测试体系合作伙伴,共同建设科学、公正大模型基准测试体系和生态,为大模型行业健康有序发展提供有力支撑。


联系人

韩老师 15201696937(微信同号)

hanxu5@caict.ac.cn


张老师 13702105361(微信同号)

zhangyuanyuan5@caict.ac.cn


李老师 18611353631(微信同号)

lisun@caict.ac.cn


END -


AI工程化推进委员会

2017年10月初,工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室(以下简称“部重点实验室”)。
中国信通院为进一步推动我国人工智能的工程化进程,依托部重点实验室成立了AI工程化推进委员会。委员会聚焦人工智能开发工具和平台,AI研发运营和管理,大模型应用,知识计算应用和AI数据集治理等技术方向,以产业活动、研究报告、标准和评估、最佳实践等手段,推动人工智能工程化相关的工具、系统、流程和治理体系的完善。
企业单位申请链接:

https://mp.weixin.qq.com/s/nZ_ZkBtk18lRyHuCkGEqCg




可信AI评测
“可信AI评测”是依托于中国信息通信研究院开展的第三方评估测试工作,涵盖人工智能产品服务评测、应用成熟度评测和可信风险评估三大模块,目前已完成人工智能评测标准体系,拥有权威的测试数据集和软硬件环境,可为企业单位出具技术产品测试报告和证书。
 最新文章