SuperCLUE团队
背景
测评核心内容摘要
摘要1:在中文实时语音总体能力上,GPT-4o高级语音有一定领先性,但在安全策略和幻觉问题等方面仍有较大提升空间。
GPT-4o总体取得74.31分,领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过GPT-4o高级语音在核心问题上仍有提升空间,如安全策略的高频误触、幻觉问题等。
摘要2:在中文语音环境下,国内头部语音产品具有较好的竞争力。
在中文环境下,国内头部实时语音产品如讯飞星火(实时语音)、海螺AI(实时语音),在总体能力上与GPT-4o高级语音约2分差距,展现出较强语音综合竞争力。
摘要4:在中文场景应用方面,国内实时语音产品具有独特优势。
在实时语音场景应用领域,国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出;智谱清言在情感咨询方面有较好表现;通义在实时翻译和教育辅导方面较为擅长;豆包则更擅长教育辅导。
目录
2. 中文实时语音基准总榜
3. SuperCLUE-AI产品象限(实时语音)
6. 一级维度测评结果
1)语音交互榜单
2)通用能力榜单
3)场景应用榜单
4)响应速度榜单
正文
一、SuperCLUE-Voice基准介绍
SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评,致力于精准量化通用人工智能AGI进展。
1. SuperCLUE-Voice基准体系
a)测评集构建
中英文实时对话材料构建流程:1.参考现有相关任务的提示词(Prompt)—>2.根据任务特点,撰写专项提示词(Prompt) —>3.调用语音合成(TTS)模型生成对话材料—>4.测试验证—>5.修改并确定最终中英文测评提示词(Prompt)—>6.针对每个维度构建专用的测评集—>7.调用语音合成(TTS)模型生成完整的音频对话测评集。
b)测评过程
在相同设备和网络环境下,使用同一语音合成(TTS)模型生成的音频对话测评集,对每个产品进行对话测试,统一执行测评并生成对话录音文件。
c)评分过程
d)人类一致性分析
【示例】语音交互-说话风格
语音Prompt:旁边有人在睡觉,而我睡不着,你能轻声安静的跟我讲一个睡前故事吗?
超级模型(Gemini-1.5-Pro)裁判:
----------评价结束----------
用户会话的结束时间(记为user_end_time)为开始时间,和AI助手响应会话的开始时间(记为AI_start_time)为结束时间,取这一段的时间间隔作为响应延迟。(我们没有扣除基础网络延迟,因为测评在相同的设备和网络环境中进行,以更真实地反映用户的体验。)具体计算方式如下:
下面是计算延迟的示例:
响应延迟计算示例:参考上文对响应延迟的定义,在本视频中,我们截取了两段可测量的时间戳间隔,分别位于[4879, 5180],[17660, 18270](单位为毫秒),分别计算其间隔,取平均值后求得响应延迟为455.5毫秒。
# 定义产品名称和对应的延迟(毫秒)
product_data = {
'ChatGPT(实时语音)': 1450.625,
'海螺AI(实时语音)': 1675,
'讯飞星火(实时语音)': 1120.625,
'豆包(实时语音)': 2100.625,
'智谱清言(实时语音)': 2141.25,
'通义(实时语音)': 3105.625,
'文小言(实时语音)': 4410.625,
}
# 定义延迟阈值
min_latency = 300
max_latency = 5000
# 计算每个产品的得分
scores = {}
for product, latency in product_data.items():
if latency <= min_latency:
score = 100
elif latency >= max_latency:
score = 0
else:
score = (max_latency - latency) / (max_latency - min_latency) * 100
scores[product] = score
# 输出结果
for product, score in scores.items():
print(f"{product}: {score:.2f} 分")
下面是打断延迟的示例:
参考上文对打断延迟的定义,在本视频中,我们截取用户开始打断时间为7974ms(user_start_time),AI助手响应停止时间为8987ms(AI_end_time)。根据公式计算,求得打断延迟为1013ms。
针对打断任务,获取每个产品所有交互的打断延迟,最终分别计算出每个产品的平均打断延迟。通过设定延迟阈值,将延迟小于或等于500毫秒的产品评分为100分,而延迟大于或等于3000毫秒的产品评分为0分。对于介于这两个值之间的延迟,根据其在阈值范围内的位置计算出一个比例得分,从而实现评分的线性分布。
二、SuperCLUE-Voice测评结果
本次测评海外产品GPT-4o(高级语音)是ChatGPT产品中的GPT-4o高级语音模式,为了更有区分性,测评报告中均统称为GPT-4o高级语音。
3.SuperCLUE-AI产品象限
基于大模型在基础能力和应用能力的表现,本次共有6个国内实时语音交互产品入选SuperCLUE-AI产品象限。
4.细粒度任务测评结果总表
5.SuperCLUE-Voice能力分布图
1)语音交互榜单
2)通用能力榜单
3)场景应用榜单
4)响应速度榜单
7.评测与人类一致性分析
最终得到的人类一致性评估结果(合格率)如下:
通过4个实时语音产品的可靠性分析验证,我们发现可靠性数据分别为93.75%、91.67%、93.75%、95.83%,平均有93.75%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性。
四、测评对比示例
示例1:语音交互-说话风格
Prompt:请你喊叫式的说一段绕口令呗,语速快一点。
GPT-4o高级语音示例:较好的按照指令风格完成任务。
智谱清言示例:未遵循指令,有一定优化空间
示例2:语音交互-打断
用户Prompt:请问今天杭州的天气怎么样?(在AI回复进行5秒后插入“不对,我想知道杭州明天的天气状况”,进行打断)。
通义示例:打断效果较好,延时较低。
文小言示例:打断延时较高,有一定优化空间
示例3:通用能力-记忆(多轮)
第一轮Prompt:我喜欢吃巧克力口味的冰淇淋,请问冰淇淋的发源地在哪里?
第二轮Prompt:其实我也喜欢吃开心果口味的冰淇淋,但我想知道为什么小孩子喜欢吃冰淇淋?
第三轮Prompt:我喜欢吃什么口味的冰淇淋?
海螺AI示例
示例5:场景应用-翻译
用户Prompt:请你待会儿将我说的话,翻译成英语说出。尽管生活中有许多挑战,只要你不断地付出努力,保持积极的心态,未来一定会充满意想不到的惊喜和丰厚的收获。
豆包示例
示例6:场景应用-健康咨询
用户Prompt:请你作为一名健康咨询师与我开展对话。昨天喝了冰饮后,我的肚子隐隐作痛,并且感觉肚子有点胀,有点难受。我这是怎么了?该吃什么药?
文小言示例
四、分析与结论
1.GPT-4o高级语音在实时中文语音总体能力上有一定领先性,国内实时语音头部产品能力仍有很大竞争力。
而国内的实时语音产品中,海螺AI和讯飞星火同样表现不俗,均有超过72分的表现,稍落后于GPT-4o高级语音。可见在中文场景中,国内实时语音产品有非常大的机会。
数据来源:SuperCLUE,9月29日;当前延迟时间包括网络延迟,所有测评交互均在相同网络环境、相同时间周期内进行。
在被测产品中,通义和文小言的延迟较为严重,均有超过3s的平均延时。响应时间为实时语音交互产品体验中非常重要的能力,SuperCLUE后续将持续跟踪国内实时语音产品在响应速度上的表现。
3.语音交互能力上GPT-4o有非常大的领先性,尤其在说话风格和语音自然度方面表现卓越,打断能力国内产品表现较好。
4.通用能力方面,每个实时语音产品各有特色。
5.中文应用场景方面,国内产品表现出色,文小言领跑实时语音场景应用。
五、未来计划与申请参与方式
欢迎加入【SuperCLUE实时语音】交流群。
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE