为加快人工智能产业生态培育,推动人工智能赋能新型工业化,中国人工智能产业发展联盟定于11月6日在北京召开第十三次全体会议,同期还将举办工作组工作汇报会。
作为此次全会的一大亮点,中国信通院将联合多家单位,通报“方升”大模型能力监测情况,包括大模型基准测试结果、测试标准和数据集。
/ 向下滑动图片查看会议完整议程 /
“方升”(FacTesting)大模型基准测试体系(以下简称“方升”)是由中国信通院联合多家头部大模型企业、用户单位和科研机构,共同制定的面向大模型的评测体系,从理解、生成、推理等15个通用能力维度对大模型进行全方位测试。
2024年以来,“方升”已对国内外60多个大模型开展持续评测监测,因此此次情况通报将成为本次会议的焦点之一。
针对大模型评测,此前中国信通院联合多家机构发布了《大模型基准测试体系研究报告(2024年)》。报告梳理了国内外产学研各界已报道的325个大模型基准测试相关数据集、方法和榜单等研究成果,总结了大模型评测发展的共性与差异,并对现状作进一步分析。
基于报告内容,中国信通院上海工创中心将通过四个问题,带您解读大模型评测的现在与未来。
对大模型研发主体:大模型基准测试可以验证模型研发效果,通过构建以能力提升为目标的评估策略来驱动模型开发。
对大模型使用方:利用客观数据集对模型能力进行全面、客观的验证,提升评测效率,降低评测成本。在具体的行业应用时,也需要利用面向行业的基准测试来进行两化评估,才能保障应用效果。
对大模型监管方:保障模型内容安全,监控大模型在诚实性、自主意识和隐私保护等方面的能力,引导大模型健康安全发展。
通用能力测试为主:针对大模型的通用语言类评测数据集占53%,通用能力包括大模型理解、生成、推理和知识能力。
考试方式为主:少数评测采用“模型对战”方式,大多数利用客观选择题、问答题等评测语言大模型。对于AI智能体或具身智能则需要搭建仿真环境。
选择与问答题为主:常见的测试数据类型包括单选、多选、问答。不同评测数据集的题目数量差异较大,代码类评测数据题目较少,知识考察类最多。遇到主观题或开放问答时仍需要人工主观评估。
评测体系尚未统一:为精确对比大模型能力,保证评测结果的公平性,需要建立规范化的评测体系。
缺乏面向行业应用的评测:为满足高度定制化和专业化的行业大模型应用需求,需要构建面向产业应用的高质量评测数据集和评测基准。
缺乏针对模型风险的评测:为避免在特定敏感问题或“边缘场景”下的大模型应用风险,需要加强对模型安全能力的评估。
评测结果与用户体验不符:为避免用户实际反馈与模型测试排名不一致,需加强面向用户体验评估的评测基准。
评测数据集存在“污染”和“饱和”问题:为避免测试数据污染训练数据,需要对评测数据集的选择和构建形成更科学的方法论。
全面梳理通用能力测试:“方升”测试体系将全面吸收产学研各界的优秀成果,重点探索评测大模型的生成能力和内容可靠性,目前已具备针对大语言模型的理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用等方面的评测,形成“领域-能力-任务-指标”的关联关系,构建全面且体系化的通用能力评测基础底座。
布局行业和应用测试(IOT/AOT):“方升”除了关注通用能力,还重点考察大模型在行业和实际应用中的表现,包括金融、医疗、工程、政务、电信;智能客服、知识管理、数据分析、办公助手等,助力大模型赋能千行百业,并最终实现业务落地。
“方升”测试体系已针对多个重点行业中的典型应用场景进行梳理,形成“通用-知识-场景-安全”的多维度评测方案,并在政务、电信等行业进行验证。
聚焦安全能力测试:“方升”构建完备的安全测评数据集,从内容安全、数据安全、科技伦理等方面综合评估,从安全性和负责任性两个角度衡量大模型性能。在数据集层面,“方升”涵盖40余万条数据,26个细粒度安全类别和4种数据模态。
提出自适应动态测试:通过测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法,解决测试“刷榜”和“静态化”问题。
自适应动态测试包含三个关键部分,即测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法。
点击“阅读原文”
下载报告。
报告简介:
报告回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架——“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。
MORE / 推 荐 阅 读
EVENTS / 近 期 要 闻