从“方升”大模型测试体系看大模型评测的现在与未来 | 报告分享

科技 2024-11-04 18:08 上海

为加快人工智能产业生态培育，推动人工智能赋能新型工业化，中国人工智能产业发展联盟定于11月6日在北京召开第十三次全体会议，同期还将举办工作组工作汇报会。

作为此次全会的一大亮点，中国信通院将联合多家单位，通报“方升”大模型能力监测情况，包括大模型基准测试结果、测试标准和数据集。

/ 向下滑动图片查看会议完整议程 /

“方升”（FacTesting）大模型基准测试体系（以下简称“方升”）是由中国信通院联合多家头部大模型企业、用户单位和科研机构，共同制定的面向大模型的评测体系，从理解、生成、推理等15个通用能力维度对大模型进行全方位测试。

2024年以来，“方升”已对国内外60多个大模型开展持续评测监测，因此此次情况通报将成为本次会议的焦点之一。

针对大模型评测，此前中国信通院联合多家机构发布了《大模型基准测试体系研究报告（2024年）》。报告梳理了国内外产学研各界已报道的325个大模型基准测试相关数据集、方法和榜单等研究成果，总结了大模型评测发展的共性与差异，并对现状作进一步分析。

基于报告内容，中国信通院上海工创中心将通过四个问题，带您解读大模型评测的现在与未来。

01大模型评测有哪些意义？

对大模型研发主体：大模型基准测试可以验证模型研发效果，通过构建以能力提升为目标的评估策略来驱动模型开发。

对大模型使用方：利用客观数据集对模型能力进行全面、客观的验证，提升评测效率，降低评测成本。在具体的行业应用时，也需要利用面向行业的基准测试来进行两化评估，才能保障应用效果。

对大模型监管方：保障模型内容安全，监控大模型在诚实性、自主意识和隐私保护等方面的能力，引导大模型健康安全发展。

02现有大模型评测有何特征？

通用能力测试为主：针对大模型的通用语言类评测数据集占53%，通用能力包括大模型理解、生成、推理和知识能力。

考试方式为主：少数评测采用“模型对战”方式，大多数利用客观选择题、问答题等评测语言大模型。对于AI智能体或具身智能则需要搭建仿真环境。

选择与问答题为主：常见的测试数据类型包括单选、多选、问答。不同评测数据集的题目数量差异较大，代码类评测数据题目较少，知识考察类最多。遇到主观题或开放问答时仍需要人工主观评估。

03大模型评测面临哪些挑战？

评测体系尚未统一：为精确对比大模型能力，保证评测结果的公平性，需要建立规范化的评测体系。

缺乏面向行业应用的评测：为满足高度定制化和专业化的行业大模型应用需求，需要构建面向产业应用的高质量评测数据集和评测基准。

缺乏针对模型风险的评测：为避免在特定敏感问题或“边缘场景”下的大模型应用风险，需要加强对模型安全能力的评估。

评测结果与用户体验不符：为避免用户实际反馈与模型测试排名不一致，需加强面向用户体验评估的评测基准。

评测数据集存在“污染”和“饱和”问题：为避免测试数据污染训练数据，需要对评测数据集的选择和构建形成更科学的方法论。

04“方升”做了哪些创新？

全面梳理通用能力测试：“方升”测试体系将全面吸收产学研各界的优秀成果，重点探索评测大模型的生成能力和内容可靠性，目前已具备针对大语言模型的理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用等方面的评测，形成“领域-能力-任务-指标”的关联关系，构建全面且体系化的通用能力评测基础底座。

布局行业和应用测试（IOT/AOT）：“方升”除了关注通用能力，还重点考察大模型在行业和实际应用中的表现，包括金融、医疗、工程、政务、电信；智能客服、知识管理、数据分析、办公助手等，助力大模型赋能千行百业，并最终实现业务落地。

“方升”测试体系已针对多个重点行业中的典型应用场景进行梳理，形成“通用-知识-场景-安全”的多维度评测方案，并在政务、电信等行业进行验证。

聚焦安全能力测试：“方升”构建完备的安全测评数据集，从内容安全、数据安全、科技伦理等方面综合评估，从安全性和负责任性两个角度衡量大模型性能。在数据集层面，“方升”涵盖40余万条数据，26个细粒度安全类别和4种数据模态。

提出自适应动态测试：通过测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法，解决测试“刷榜”和“静态化”问题。

自适应动态测试包含三个关键部分，即测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法。

点击“阅读原文”

下载报告。

报告简介：

报告回顾了大模型基准测试的发展现状，对已发布的主要大模型评测数据集、体系和方法进行了梳理，分析了当前基准测试存在的问题和挑战，提出了一套系统化构建大模型基准测试的框架——“方升”大模型基准测试体系，介绍了基于“方升”体系初步开展的大模型评测情况，并对未来大模型基准测试的发展趋势进行展望。

·END·

MORE / 推荐阅读

EVENTS / 近期要闻

→ 喜报 | 信通院工创中心担任新一届上海市工业互联网协会执行副会长单位！

→ 首席数据官联盟成立大会举行，上海工创中心成为联盟首批会员单位！

→ 喜报 | 上海工创中心项荣获2023年度上海市技术发明奖一等奖！

http://mp.weixin.qq.com/s?__biz=MzUyOTYwMTEwNg==&mid=2247515036&idx=1&sn=8e83cf7b383c255956839f69b769707f

工业互联网创新中心

工业互联网创新中心（上海）有限公司是工业和信息化部与上海市联合共建的工业互联网创新中心，也是长三角国创中心体系下的重要研发载体。公司主营数字工业、数字健康、检测认证和数字安全四大核心业务，全方位助推数字化转型，为客户提供数字化场景解决方案。

最新文章

深化产教融合，赋能智造未来 | “产教融合数字智造技术中心”成功签约揭牌

回顾2024全球6G发展大会，6G+AI是最热话题

国家卫健委等三部门印发《卫生健康行业人工智能应用场景参考指引》

大模型平台多项标准发布，大模型基础设施高质量推进计划启动

上海部署医学人工智能发展，强调融合发展、需求牵引和协同推进

临港新片区召开首批申报增值电信开放试点企业座谈会

中国人工智能产业发展联盟《2024年人工智能先锋案例集》发布（内含案例集全文）

工信部组织开展2024年实体经济和数字经济深度融合典型案例征集工作

11.3-11.9 | 第七届进博会、区块链创新应用、5G+工业互联网、器官芯片国家标准、混元大模型…

语料筑基，共赢未来 | 信通院工创中心与库帕思科技签署战略合作协议！

从“方升”大模型测试体系看大模型评测的现在与未来 | 报告分享

央视财经推出四集微纪录片《新质生产力·布局未来》

10.27-11.2 | 智能工厂梯度培育、网络安全国家标准、中国创新指数、5G赋能…

中国信通院上海工创中心月报：2024/10

智汇工创，智慧共创 | 中国信通院上海工创中心诚邀各界英才加入！

《上海市提升生物医药企业国际竞争力行动方案（2024—2027年）》印发

喜报 | 信通院工创中心担任新一届上海市工业互联网协会执行副会长单位！

2024全球6G发展大会即将召开！11月13-14日@上海

浦东新区中小企业数字化转型城市试点专项 | 2024年度数字化诊断、数字化改造、行业标杆、数字化水平等级评定四大申报工作开启！

工信部印发《工业和信息化领域数据安全事件应急预案（试行）》

2024年度智能工厂梯度培育行动、卓越级智能工厂培育工作正式启动！

首席数据官联盟成立大会举行，上海工创中心成为联盟首批会员单位！

喜报 | 上海工创中心项荣获2023年度上海市技术发明奖一等奖！

10.20-10.26 | 智能制造系统解决方案申报、增值电信业务扩大对外开放、上海市科技大会、前三季度数据…

模塑申城，未来健康 | 2024上海市医疗大模型应用示范场景技术分享会顺利举行！

通知 | 第一批浦东新区中小企业数字化转型城市试点数字化改造服务商（培育）公开遴选！

2024年度智能制造系统解决方案“揭榜挂帅”申报工作启动

三大标准，选出最佳船舶网络安全服务商

专家解读 | 增值电信业务扩大对外开放的意义、影响与潜在机会

增值电信业务扩大对外开放试点正式启动

倒计时三天 | “模塑申城未来健康”2024上海市医疗大模型应用示范场景技术分享会议程&嘉宾阵容发布！

全国大模型备案奖励补贴政策汇总，徐汇区最高200万！

活动回顾 | 工业和信息化部“铸网2024”暨上海市“铸盾2024”车联网网络安全实战攻防活动成功举办

《可信数据空间发展行动计划（2024-2028年）》征求意见稿发布，多位专家解读可信数据空间的可见未来

10.13-10.19 | IDC总体技术要求、世界电信标准化全会、世界智能网联汽车大会、中国版“星链”新进展……

活动邀请 | “模塑申城·未来健康”2024上海市医疗大模型应用示范场景技术分享会即将召开！

3GPP启动首个6G场景用例与需求标准研究，后续还有哪些标准化工作？

工业和信息化部“铸网2024”暨上海市“铸盾2024”车联网网络安全实战攻防演练活动圆满举行

对标最新行业标准，上海工创中心实验室整车天线性能检测能力再提升！

强强联手 | 上海工创中心与中汽科技（上海）、常州检验中心签订合作协议

工业和信息化部“铸网2024”暨上海市“铸盾2024”车联网网络安全实战攻防活动正式启动！

强强联手 | 上海工创中心与中汽科技（上海）、常州检验中心签订合作协议

工信部征集先进计算赋能新质生产力典型应用案例

助力6G创新 | 上海工创中心联合发起筹建上海未来通信产业测试研究中心

工信部最新权威解读：如何培育专精特新、打造独角兽企业？如何帮助企业扩大市场？

10.6-10.12 | 网络数据安全、数据标准体系、公共数据、科技成果转化、具身智能机器人、数字生态合作……

模塑申城·未来健康 | 2024上海市医疗大模型应用示范场景复审答辩会顺利举行！

一图读懂 | 《网络数据安全管理条例》正式发布，多个概念首次明确！

工信部印发《智能制造典型场景参考指引（2024年版）》

上海工创中心与您共庆盛世华诞！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉