随着大模型技术的不断演进,多模态大模型进入快速发展阶段。相比于语言类大模型,多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。为应对上述挑战,中国移动技术能力评测中心发布《“弈衡”多模态大模型评测体系白皮书》,旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准,为评测数据和评测工具的构建提供参考指导。
多模态大模型评测背景
随着人工智能技术的快速发展,多模态大模型迅速融入到了各行业的应用场景中。其在多个领域的典型应用如图1所示。
图1 多模态大模型典型应用
在多模态大模型中,图文双模态大模型发展尤为迅速,鉴于其重要性和广泛应用前景,本白皮书主要聚焦图文大模型评测,系统讨论关键评测技术。
图文大模型的评测需求包括:
一是识别类任务是指对图片中的特定事物进行识别、计数等工作;
二是理解类任务是指针对图片进行内容理解并回答对应问题;
三是创作类任务是指通过给定的文字或图像提示信息进行图片创作或图像修改;
四是推理类任务是指结合输入的图像和文本信息,进行逻辑推理、归纳推理或演绎推理等。
针对这四类任务,当前图文大模型的评测挑战包含:
一是图文大模型的高泛化性对评测任务选取提出挑战,需要根据业务需求与模型现有能力选择合适的评测任务;
二是图文大模型的高复杂度对评测数据构建提出更高要求,需要梯度性设置测试用例;
三是图文大模型评价结果的客观性也需要重点考虑,尤其是针对创作类任务,需制定好主观评测体系基准,尽可能客观地实现模型的公平评价。
多模态大模型评测技术
本白皮书根据近年来的研究成果,对图文大模型的主要评测方式、典型评测维度和常见评测指标进行了梳理与总结。
评测方式:主要包括客观评测和主观评测两种。客观评测是指利用客观评价指标对图文大模型的生成结果进行定量评估,客观评价指标可从各个维度对图文大模型进行准确、全面、公平的评价,是评测的主要方式。主观评测是指通过人工打分的方式对图文大模型的预测结果进行评价,主要应用于测试用例没有明确标准答案的创作类任务中。
评测维度:图文大模型的典型评测维度主要包含以下四个方面:模型性能评测是图文大模型的核心维度,主要评测图文大模型对图像和文字的识别、理解、推理能力。模型泛化能力评测主要评测图文大模型在多任务上的适配能力,该评测维度可以反映出大模型在实际部署中的泛化性。模型鲁棒性评测主要评测模型应对各类干扰时的鲁棒性及可靠性。模型一致性评测主要评测在面对不同规模解空间的问题时,图文大模型能否在相同知识点上给出一致答案的能力。
常见评测指标:评测中需要针对图文大模型在业务中的实际应用场景,选取更有针对性更能反映业务性能的评测指标。常见评价指标如图2所示。
图2 图文大模型常见评测指标
典型多模态大模型评测体系
当前典型图文大模型评测体系包括:
一是MMbench由上海人工智能实验室提出,该体系主要包含多维度评测任务设置和CircularEval评测方式两项创新点;
二是OCRBench由华中科技大学提出,它针对OCR领域的常见任务进行了广泛测试验证;
三是智源评测体系由智源研究院提出,该体系系针对图片问答、文本生成图像等任务进行了测试,主要考察了模型的理解和生成能力;
四是LLaVA-Bench由威斯康星大学提出,它聚焦于视觉指令跟随任务,着重考察图文大模型的对话、图片描述及复杂推理能力;
五是VisIT-Bench由希伯来大学提出,它综合考察了图文大模型的识别、场景理解等各类能力,并利用GPT-4对图文大模型性能进行评定;
六是SEED-Bench由腾讯人工智能实验室提出,它将测试用例分为多个难度层级,涵盖了场景理解、实例属性、图表理解等十二个评测维度,考察大模型对图像文本的理解和创作能力;
七是ConBench由北京大学提出,它弥补了多模态大模型一致性评价的空白,比较了不同提问方式下的模型答案。
“弈衡”多模态大模型评测体系
为全面考量图文大模型的图像和文字综合理解能力,本白皮书遵循客观全面、公平公正和用户视角的评测原则,提出了“弈衡”多模态大模型评测体系,该体系采用“2-4-6”层级架构,包含 2 类评测场景、4 项评测要素以及 6 种评测维度,从功能、性能、可靠性、安全性、交互性等方面对图文大模型进行全方位评测,如图3所示。
图3 “弈衡”多模态大模型评测体系框架
评测场景。“弈衡”多模态大模型评测体系将图文大模型评测任务分为基础任务和应用任务两类。
(1)基础任务主要关注图文结合的各类通用任务场景,这些场景适用性广,可为后续的应用任务提供方法参考和对标基线,如图4所示。
图4 基础任务典型场景
(2)应用任务聚焦于图文大模型在在各类特定领域和场景下的性能,如图5所示。
图5 应用任务典型场景
评测要素。“弈衡”多模态大模型评测体系主要包括评测方式、评测指标、评测数据和评测工具四项。
(1)评测方式重点考虑测试样本构造和测试结果判断。测试样本构造全面考虑零样本、单样本、少样本以及提示工程等评测方式;测试结果判断要根据是否有标准答案,使用客观评测或主观评价进行评定。
(2)评测指标主要分为客观和主观两大类。客观类指标的主要特征是确定性和可量化性,主要适用于评测有明确答案的任务;主观类指标主要用于评估没有固定标准答案的开放性问题,通常可通过人工打分综合评价图文大模型的应用效果。
(3)评测数据构建需要以任务为导向,覆盖基础场景和实际应用场景,避免使用知名开源数据集,并且应合理设置难易比例,梯度构建评测用力。在构建测试数据集时,应遵循丰富性、公平性、准确性三项原则。
(4)评测工具。本白皮书构建“弈衡”大模型评测平台,该平台包含数据与模型管理、评测流程管理、结果分析与展示三项核心功能,以智能化自动化、灵活可扩展性、交互体验设计为原则,提供标准化、公正、安全且易于操作的评测服务。
评测维度。“弈衡”多模态大模型评测体系从功能性、准确性、可靠性、安全性、交互性、应用性六大维度对大模型进行评测。
(1)功能性关注图文大模型解决多种任务的能力;
(2)准确性关注模型执行各类任务的性能;
(3)可靠性评测大模型的抗噪声能力;
(4)安全性考察大模型生成结果的毒害性和公平性;
(5)交互性关注用户使用大模型时的交互体验;
(6)应用性评测大模型产品或系统在现实应用场景中的部署、运维、支撑能力和使用效果。
多模态大模型评测展望
未来,中国移动技术能力评测中心将不断优化“弈衡”多模态大模型评测体系,与业界合作伙伴一道,推动多模态大模型产业成熟和落地应用。
点击以下“阅读原文”获取报告原文。