从“方升”大模型测试体系看大模型评测的现在与未来 | 报告分享

科技   2024-11-04 18:08   上海  

为加快人工智能产业生态培育,推动人工智能赋能新型工业化,中国人工智能产业发展联盟定于11月6日在北京召开第十三次全体会议,同期还将举办工作组工作汇报会。


作为此次全会的一大亮点,中国信通院将联合多家单位,通报“方升”大模型能力监测情况,包括大模型基准测试结果、测试标准和数据集。


/ 向下滑动图片查看会议完整议程 /


“方升”(FacTesting)大模型基准测试体系(以下简称“方升”)是由中国信通院联合多家头部大模型企业、用户单位和科研机构,共同制定的面向大模型的评测体系,从理解、生成、推理等15个通用能力维度对大模型进行全方位测试。

2024年以来,“方升”已对国内外60多个大模型开展持续评测监测,因此此次情况通报将成为本次会议的焦点之一。



针对大模型评测,此前中国信通院联合多家机构发布了《大模型基准测试体系研究报告(2024年)》。报告梳理了国内外产学研各界已报道的325个大模型基准测试相关数据集、方法和榜单等研究成果,总结了大模型评测发展的共性与差异,并对现状作进一步分析。


基于报告内容,中国信通院上海工创中心将通过四个问题,带您解读大模型评测的现在与未来。


01大模型评测有哪些意义?

对大模型研发主体:大模型基准测试可以验证模型研发效果,通过构建以能力提升为目标的评估策略来驱动模型开发。


对大模型使用方:利用客观数据集对模型能力进行全面、客观的验证,提升评测效率,降低评测成本。在具体的行业应用时,也需要利用面向行业的基准测试来进行两化评估,才能保障应用效果。


对大模型监管方:保障模型内容安全,监控大模型在诚实性、自主意识和隐私保护等方面的能力,引导大模型健康安全发展。

02现有大模型评测有何特征?

通用能力测试为主:针对大模型的通用语言类评测数据集占53%,通用能力包括大模型理解、生成、推理和知识能力。


考试方式为主:少数评测采用“模型对战”方式,大多数利用客观选择题、问答题等评测语言大模型。对于AI智能体或具身智能则需要搭建仿真环境。


选择与问答题为主:常见的测试数据类型包括单选、多选、问答。不同评测数据集的题目数量差异较大,代码类评测数据题目较少,知识考察类最多。遇到主观题或开放问答时仍需要人工主观评估。

03大模型评测面临哪些挑战?

评测体系尚未统一:为精确对比大模型能力,保证评测结果的公平性,需要建立规范化的评测体系。


缺乏面向行业应用的评测:为满足高度定制化和专业化的行业大模型应用需求,需要构建面向产业应用的高质量评测数据集和评测基准。


缺乏针对模型风险的评测:为避免在特定敏感问题或“边缘场景”下的大模型应用风险,需要加强对模型安全能力的评估。


评测结果与用户体验不符:为避免用户实际反馈与模型测试排名不一致,需加强面向用户体验评估的评测基准。


评测数据集存在“污染”和“饱和”问题:为避免测试数据污染训练数据,需要对评测数据集的选择和构建形成更科学的方法论。

04“方升”做了哪些创新?

全面梳理通用能力测试:方升”测试体系将全面吸收产学研各界的优秀成果,重点探索评测大模型的生成能力和内容可靠性,目前已具备针对大语言模型的理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用等方面的评测,形成“领域-能力-任务-指标”的关联关系,构建全面且体系化的通用能力评测基础底座。


布局行业和应用测试(IOT/AOT):“方升”除了关注通用能力,还重点考察大模型在行业和实际应用中的表现,包括金融、医疗、工程、政务、电信;智能客服、知识管理、数据分析、办公助手等,助力大模型赋能千行百业,并最终实现业务落地。


“方升”测试体系已针对多个重点行业中的典型应用场景进行梳理,形成“通用-知识-场景-安全”的多维度评测方案,并在政务、电信等行业进行验证。


聚焦安全能力测试:“方升”构建完备的安全测评数据集,从内容安全、数据安全、科技伦理等方面综合评估,从安全性和负责任性两个角度衡量大模型性能。在数据集层面,“方升”涵盖40余万条数据,26个细粒度安全类别和4种数据模态。


提出自适应动态测试:通过测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法,解决测试“刷榜”和“静态化”问题。


自适应动态测试包含三个关键部分,即测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法。



点击“阅读原文”

下载报告。

报告简介:

报告回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架——“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。



·END·

MORE  /  推 荐 阅 读 

EVENTS /  近 期 要 闻 

 喜报 | 信通院工创中心担任新一届上海市工业互联网协会执行副会长单位!
→ 首席数据官联盟成立大会举行,上海工创中心成为联盟首批会员单位!
→ 喜报 | 上海工创中心项荣获2023年度上海市技术发明奖一等奖!

工业互联网创新中心
工业互联网创新中心(上海)有限公司是工业和信息化部与上海市联合共建的工业互联网创新中心,也是长三角国创中心体系下的重要研发载体。公司主营数字工业、数字健康、检测认证和数字安全四大核心业务,全方位助推数字化转型,为客户提供数字化场景解决方案。
 最新文章