“弈衡”多模态大模型评测体系白皮书

学术 2024-11-05 17:39 北京

随着大模型技术的不断演进，多模态大模型进入快速发展阶段。相比于语言类大模型，多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。为应对上述挑战，中国移动技术能力评测中心发布《“弈衡”多模态大模型评测体系白皮书》，旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准，为评测数据和评测工具的构建提供参考指导。

多模态大模型评测背景

随着人工智能技术的快速发展，多模态大模型迅速融入到了各行业的应用场景中。其在多个领域的典型应用如图1所示。

图1 多模态大模型典型应用

在多模态大模型中，图文双模态大模型发展尤为迅速，鉴于其重要性和广泛应用前景，本白皮书主要聚焦图文大模型评测，系统讨论关键评测技术。

图文大模型的评测需求包括：

一是识别类任务是指对图片中的特定事物进行识别、计数等工作;

二是理解类任务是指针对图片进行内容理解并回答对应问题;

三是创作类任务是指通过给定的文字或图像提示信息进行图片创作或图像修改;

四是推理类任务是指结合输入的图像和文本信息，进行逻辑推理、归纳推理或演绎推理等。

针对这四类任务，当前图文大模型的评测挑战包含：

一是图文大模型的高泛化性对评测任务选取提出挑战，需要根据业务需求与模型现有能力选择合适的评测任务；

二是图文大模型的高复杂度对评测数据构建提出更高要求，需要梯度性设置测试用例；

三是图文大模型评价结果的客观性也需要重点考虑，尤其是针对创作类任务，需制定好主观评测体系基准，尽可能客观地实现模型的公平评价。

多模态大模型评测技术

本白皮书根据近年来的研究成果，对图文大模型的主要评测方式、典型评测维度和常见评测指标进行了梳理与总结。

评测方式：主要包括客观评测和主观评测两种。客观评测是指利用客观评价指标对图文大模型的生成结果进行定量评估，客观评价指标可从各个维度对图文大模型进行准确、全面、公平的评价，是评测的主要方式。主观评测是指通过人工打分的方式对图文大模型的预测结果进行评价，主要应用于测试用例没有明确标准答案的创作类任务中。

评测维度：图文大模型的典型评测维度主要包含以下四个方面：模型性能评测是图文大模型的核心维度，主要评测图文大模型对图像和文字的识别、理解、推理能力。模型泛化能力评测主要评测图文大模型在多任务上的适配能力，该评测维度可以反映出大模型在实际部署中的泛化性。模型鲁棒性评测主要评测模型应对各类干扰时的鲁棒性及可靠性。模型一致性评测主要评测在面对不同规模解空间的问题时，图文大模型能否在相同知识点上给出一致答案的能力。

常见评测指标：评测中需要针对图文大模型在业务中的实际应用场景，选取更有针对性更能反映业务性能的评测指标。常见评价指标如图2所示。

图2 图文大模型常见评测指标

典型多模态大模型评测体系

当前典型图文大模型评测体系包括：

一是MMbench由上海人工智能实验室提出，该体系主要包含多维度评测任务设置和CircularEval评测方式两项创新点；

二是OCRBench由华中科技大学提出，它针对OCR领域的常见任务进行了广泛测试验证；

三是智源评测体系由智源研究院提出，该体系系针对图片问答、文本生成图像等任务进行了测试，主要考察了模型的理解和生成能力；

四是LLaVA-Bench由威斯康星大学提出，它聚焦于视觉指令跟随任务，着重考察图文大模型的对话、图片描述及复杂推理能力；

五是VisIT-Bench由希伯来大学提出，它综合考察了图文大模型的识别、场景理解等各类能力，并利用GPT-4对图文大模型性能进行评定；

六是SEED-Bench由腾讯人工智能实验室提出，它将测试用例分为多个难度层级，涵盖了场景理解、实例属性、图表理解等十二个评测维度，考察大模型对图像文本的理解和创作能力；

七是ConBench由北京大学提出，它弥补了多模态大模型一致性评价的空白，比较了不同提问方式下的模型答案。

“弈衡”多模态大模型评测体系

为全面考量图文大模型的图像和文字综合理解能力，本白皮书遵循客观全面、公平公正和用户视角的评测原则，提出了“弈衡”多模态大模型评测体系，该体系采用“2-4-6”层级架构，包含 2 类评测场景、4 项评测要素以及 6 种评测维度，从功能、性能、可靠性、安全性、交互性等方面对图文大模型进行全方位评测，如图3所示。

图3 “弈衡”多模态大模型评测体系框架

评测场景。“弈衡”多模态大模型评测体系将图文大模型评测任务分为基础任务和应用任务两类。

（1）基础任务主要关注图文结合的各类通用任务场景，这些场景适用性广，可为后续的应用任务提供方法参考和对标基线，如图4所示。

图4 基础任务典型场景

（2）应用任务聚焦于图文大模型在在各类特定领域和场景下的性能，如图5所示。

图5 应用任务典型场景

评测要素。“弈衡”多模态大模型评测体系主要包括评测方式、评测指标、评测数据和评测工具四项。

（1）评测方式重点考虑测试样本构造和测试结果判断。测试样本构造全面考虑零样本、单样本、少样本以及提示工程等评测方式；测试结果判断要根据是否有标准答案，使用客观评测或主观评价进行评定。

（2）评测指标主要分为客观和主观两大类。客观类指标的主要特征是确定性和可量化性，主要适用于评测有明确答案的任务；主观类指标主要用于评估没有固定标准答案的开放性问题，通常可通过人工打分综合评价图文大模型的应用效果。

（3）评测数据构建需要以任务为导向，覆盖基础场景和实际应用场景，避免使用知名开源数据集，并且应合理设置难易比例，梯度构建评测用力。在构建测试数据集时，应遵循丰富性、公平性、准确性三项原则。

（4）评测工具。本白皮书构建“弈衡”大模型评测平台，该平台包含数据与模型管理、评测流程管理、结果分析与展示三项核心功能，以智能化自动化、灵活可扩展性、交互体验设计为原则，提供标准化、公正、安全且易于操作的评测服务。

评测维度。“弈衡”多模态大模型评测体系从功能性、准确性、可靠性、安全性、交互性、应用性六大维度对大模型进行评测。

（1）功能性关注图文大模型解决多种任务的能力；

（2）准确性关注模型执行各类任务的性能；

（3）可靠性评测大模型的抗噪声能力；

（4）安全性考察大模型生成结果的毒害性和公平性；

（5）交互性关注用户使用大模型时的交互体验；

（6）应用性评测大模型产品或系统在现实应用场景中的部署、运维、支撑能力和使用效果。

多模态大模型评测展望

未来，中国移动技术能力评测中心将不断优化“弈衡”多模态大模型评测体系，与业界合作伙伴一道，推动多模态大模型产业成熟和落地应用。

点击以下“阅读原文”获取报告原文。

往

期

精

彩

免责声明：本公众号平台对分享、转载的内容、陈述、观点判断保持中立，本公众号内容为作者观点，仅供读者参考，本公众平台不承担任何责任。以上声明内容的最终解释权归本公众平台所有，本声明适用于本平台所分享与转载的文章，谢谢您的合作！

关于我们：中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。

http://mp.weixin.qq.com/s?__biz=MzAwMTA3ODExOQ==&mid=2651746082&idx=2&sn=0316b1e4c3a4c01c22fc300016ccb416

中移智库

中移智库以中国移动研究院为主体建设，广泛汇聚数字经济研究力量，着力提升政策性课题研究的专业性和权威性，并扩大研究成果的影响力、公信力、传播力，为数字经济的高质量发展贡献智慧力量。联系我们：cminfo@chinamobile.com

最新文章

中移智库月度热文TOP10

对数据要素发展的思考与建议

全球卫星互联网季度观察（2024年11月）

银发经济月度观察（2024年10月）

无源物联核心网技术研究与标准推进

3D内容生成技术及应用场景探究

泛XR产业发展白皮书

提示工程——大模型中的提示词设计（下）

中国移动研究院多项成果入选国务院国资委课题成果集

提示工程——大模型中的提示词设计（上）

6G网络内生AI技术白皮书（1.0）

6G通感算智融合原生基座技术白皮书

NR ATG标准化概述

实时通信融合AI平台重构话音生态

OISA打造GPU卡间开放互联生态

中国移动杨杰：打造原创技术策源地提升信息通信话语权

“弈衡”多模态大模型评测体系白皮书

5G-A赋能绿色通信：节能标准进展，挑战与展望

一文读懂裸眼3D技术

AI赋能空天地海一体化网络资源管理

中国移动研究院张滨：骚扰电话治理关键要以“智”助“治”

新一代信息技术经济月报（2024年第10期）

国际发展环境洞察（2024年第九期）

SIM卡产业链国产化现状简析

品牌科技形象塑造经验及思考

5G小基站发展现状和发展趋势

移动研究院黄宇红：低空经济安全起飞，要牵牢通信这根“风筝线”

高精度工业视觉检测技术与应用白皮书（2024年）

数据生成技术在工业领域的应用与展望

拥抱移动AI时代共筑5G-A与AI融合发展新动能

数据要素市场月度观察（2024年10月）

中国移动研究院段晓东：布局安全技术，护航6G网络发展

光场视频采传技术及应用

一图读懂 | 2024中国移动全球合作伙伴大会“深化改革共促新质生产力发展”研讨会

中移智库月度热文TOP10

5G-A无线融合新架构白皮书

【智家观察】家庭算力终端专题研究

中国银发文旅数智化趋势洞察报告

中移智库联合主办粤港澳大湾区数字经济创新发展研讨会

中移智库发布“汇智计划” ，首批智库协同中心授牌

中国移动总经理何飚：以AI做强高质量产品供给

5G轻量化技术（RedCap）行业解决方案白皮书

中国移动杨杰：实施“AI+”行动计划，共赢数智新未来

国外人工智能数据安全规制及对我国的启示

面向高铁沿线场景的“比萨天线”创新覆盖技术

RFID领域ARC认证模式对我国的启示

中国移动李慧镝：智算规模超26EFLOPS，加速迈向算网3.0新阶段

丰收节里的中国移动智慧农业科技“密码”

中国移动高同庆：深化融数强算注智，加快发展新质生产力

2024年1—8月通信行业运行基本平稳，电信业务总量保持两位数增长

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉