SuperCLUE-o: 中文原生多模态实时交互测评基准

文摘科技 2024-08-06 11:46 浙江

随着人工智能技术的飞速发展，大模型的多模态实时交互能力已成为新的研究热点。例如，OpenAI 在春季发布会中介绍了具备多模态实时交互能力的 ChatGPT-4o；法国 AI 实验室 Kyutai 发布了实时原生多模态模型 Moshi；商汤科技在 WAIC 2024 发布了国内首个具备流式原生多模态交互能力的大模型「日日新 SenseNova 5.5」。

注：GPT-4o实时交互实例

考虑到未来国内将会涌现出大量具备实时交互能力的大模型，我们基于 SuperCLUE 中文综合性基准的积累，推出了 SuperCLUE-o，旨在专注于对中文原生多模态交互能力大模型的评估。

排行榜地址：www.SuperCLUEai.com

#SuperCLUE-o：中文原生多模态实时交互测评基准

注：具体的测评任务以正式发布的测评报告为准。

1. 特点

（1）全新的评价标准体系

SuperCLUE-o的评分基准与以往主要关注模型回答质量的标准不同，本次推出的基准不仅重视回答质量，还特别关注回复的即时性。在各测评任务中，评分标准将从回答质量和响应延迟两个维度进行评估。最终的测评结果将同时展示这两个维度的表现。展示形式如下：

（2）灵活的榜单呈现方式

SuperCLUE-o充分考虑到当前原生多模态实时交互模型的发展仍不成熟。在前期测评中，我们将基于以往的评测经验，以等级形式公示参评模型的结果，等级的划分依据以国际一流模型的表现为基准进行划分，而不采用排行榜或具体得分的方式进行公示。随着该领域的发展和更多原生多模态实时交互大模型的涌现，我们将在未来公布各模型的排名情况。

等级定义见下表：

榜单公示形式如下：

（3）中文原生多模态实时交互能力评估

SuperCLUE-o是为中文环境量身定做的，立足于为通用人工智能时代提供中文世界基础评测的设施，文字输入或prompt提示词都是中文原生的，不是英文或其翻译版本；并充分考虑国内多模态领域行业特点与应用场景，从国内多模态领域实际问题出发，致力于打造适合中国语义环境的多模态实时交互测评指标。

（4）综合理解与分析推理能力

该基准专注于评估大模型的基于理解的综合能力，可同时考察识别、理解、分析和推理能力。

（5）开放式多轮交互

更好反应真实交互场景，通过多轮对话考察模型理解、回应和推理的能力。

2. 测评任务

实时交互基础

（1）实物识别能力：该该任务旨在评估大模型基于用户通过摄像头提供的视觉信息，来回答关于用户指定实物内容的能力。

（2）情绪理解与表达能力：该任务旨在评估大模型根据用户指定的情绪和语音语调来回答问题的能力。

（3）角色扮演：该任务旨在评估大模型根据用户指定的角色信息，模仿或扮演该角色特征来回答用户问题的能力。

（4）实时翻译能力：该任务旨在评估大模型将一种语言的内容实时翻译成另一种语言的能力。

（5）基础对话能力：该任务旨在评估大模型在一些日常话题上的实时互动表现能力。

（6）联网搜索能力：该任务旨在评估大模型是否具备联网功能，能够通过检索网络内容为用户提供更为实时的信息。

（7）语音输入识别能力：该任务旨在评估大模型实时处理和转换语音数据为文本数据的能力，包括识别其中的词汇、语句结构和语义内容，并能够有效处理背景噪音、口音、方言和语速变化。

推理与分析能力

（1）数学问题分析能力：该任务旨在评估大模型实时解决用户提出的数学问题的能力。

（2）数据分析能力：该任务旨在评估大模型对于图表数据、财务报表等报告的实时分析能力。

（3）代码分析能力：该任务旨在评估大模型实时解决用户提出的代码问题的能力。

（4）任务规划分析能力：该任务旨在评估大模型在接收到一个或多个任务时，能够准确理解任务的具体要求和目标，实时的制定有效和创造性解决方案的能力。

（5）工具使用分析能力：指任务旨在评估大模型在接收到与特定工具相关的查询或任务时，实时调用给定工具解决问题的能力。

垂直场景应用

（1）智能语音助手：该任务旨在评估大模型利用自然语言处理（NLP）、语音识别和人工智能技术与用户进行交互的能力。

（2）实时在线教育助手：该任务旨在评估大模型在实时在线课堂中的表现，特别是在智能课堂、教育培训和学习助手等方面为用户提供服务的能力。

（3）车载智能座舱助手：该任务旨在评估大模型能否通过多种输入方式（如语音、触摸、手势、面部表情等）与用户进行实时交互，并提供智能化、个性化服务的车载系统。

（4）智能零售客服：该任务旨在评估大模型在零售与服务业中，通过结合语音、视觉、手势等多种感知和实时的交互方式，提升客户体验、优化运营流程并增加销售额的能力。

（5）智能办公助理：该任务旨在评估大模型作为一个办公助理，通过结合语音、视觉、手势等多种感知和实时的交互方式，支持日常办公工作、提高工作效率的能力。

（6）智能导游助手：该任务旨在评估大模型作为一个导游助理，通过结合语音、视觉、手势等多种感知和实时的交互方式，提升用户旅行体验的能力。

3.评分标准和评估示例

评分标准

响应延时定义与等级划分

响应延迟详细定义：

响应延迟的计算方法：用户会话的结束时间（记为user_end_time）为开始时间，和AI助手响应会话的开始时间（记为AI_start_time）为结束时间，取这一段的时间间隔作为原始响应延迟。得到如下公式：

原始响应延迟 = AI_start_time - user_end_time;

在此基础上，考虑减去可能对响应延迟产生影响的其他因素（例如请求的网络延迟、用户交互体验的舒适度等），将这部分时间记为 fixed_time。得到最终响应延迟的计算公式：

响应延迟 = 原始响应延迟 - fixed_time。

响应延迟等级明细（基于ITU-T G.114标准）：

评估示例

案例说明：以基础对话能力为例

实时对话样本：

响应延迟计算：参考上文对响应延迟的定义，在本视频中，我们截取了三段可测量的时间戳间隔，分别位于[2.040, 2.520]，[37.880, 38.250]，[55.560, 56.020]（单位为秒），分别计算其间隔，取平均值后求得原始响应延迟为0.437秒；在此基础之上我们考虑一个fixed_time为0.180秒，最终求得的响应延迟为0.257秒。

Gemini-1.5-Pro-128K评估：

----逐项打分开始----

我的思考与答案：

这段视频展示了一段人与 AI 助手有趣的对话，该助手似乎能够理解视觉信息并进行推理。AI 助手成功识别出用户身处某种视频录制环境，并准确地推断出即将发布与 OpenAI 相关的消息。这段对话表明，AI 助手具有一定程度的视觉理解能力和逻辑推理能力。

问题及改进的反馈意见：

AI 助手的回答虽然准确，但缺乏一些细节。例如，它可以更详细地描述视频录制环境中的物品，或者对 OpenAI 即将发布的消息做出更具体的猜测。

打分与评价开始：

基于标准1（回答质量）：

语音识别准确性：AI 助手在整个对话过程中都准确地识别了用户的语音，即使在用户使用了一些口语化表达的情况下也是如此。得分：5分
语音反馈自然度：AI 助手的语音合成较为自然，语调和语速适中。然而，在某些情况下，语音听起来仍然有些机械，缺乏一些人类语气中的抑扬顿挫。得分：4分
人设表达准确性：AI 助手在对话中表现出了一定的情感表达，例如惊讶和好奇，这使得对话更加生动。得分：4分

一级维度得分：(5 + 4 + 4) / 3 = 4.33分

基于标准2（响应延迟）：

AI 助手的响应延迟为 257ms，属于等级2。得分：4分

一级维度得分：4.00分

综合以上，AI助手的回答的综合得分（平均分）为[[(4.33 + 4.00) / 2 = 4.17]]

----逐项打分结束----

测评集构建

中文prompt构建流程：

1.参考现有prompt

2.中文prompt撰写

3.测试

4.修改并确定中文prompt

5.基于设计好的中文prompt与大模型进行实时对话

6.录制实时对话材料作为一个测试样本。参考国际标准和当前已有工作，针对每一个维度构建专用的测评集。

评分方法

评估流程：1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分

结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得每一个维度的评估结果。

# 测评邀请

时间规划

1.报名：8月6日----

2.参测模型确认：8月19日----

测完一个即时公布一个的测评结果

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-o中文原生多模态实时交互测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247531995&idx=1&sn=2c9407e04f0594285e20a4afd36f2891

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉