语音合成大模型测评基准(方案)发布

文摘   科技   2024-11-20 17:43   浙江  

随着人工智能技术在语音合成(Text-to-Speech,TTS)领域的迅速发展,新一代语言模型在语音合成任务中的表现也成为了研究重点。为更精确评估大模型的语音合成能力,我们基于中文基准测评经验,推出了全新的语音合成测评基准SuperCLUE-TTS。该基准评估关注模型的语音合成基础能力,全面衡量模型所生成的语音的准确度、清晰度、自然度与情感表现能力,并且纳入了大量应用场景的考察。这一框架旨在未来模型研发提供参考,确保其在复杂任务中具备更高的可靠性和灵活性。

排行榜地址:www.SuperCLUEai.com

SuperCLUE-TTS测评体系

注:具体的测评任务以正式发布的测评报告为准。

1. 特点
(1)全面性
评分标准全面覆盖语音合成模型的整体表现,确保对大模型语音合成能力的全面评估。我们除了关注大模型生成的语音准确度、清晰度、自然度与情感表现能力以外,还会考察语音的场景能力,确保模型能在不同场景生成契合该场景的语音。
(2)多样性
测评数据集涵盖了多种常见的实用场景,旨在验证大模型在生成不同应用场景语音方面的能力,同时确保生成的语音的情感契合度与表现力都符合该场景的要求。而测评具体使用的应用场景包括语音导航、有声读物、语音播报、内容配音、直播广告这五个场景。


2. 测评任务
基础能力

1. 准确性

发音准确性:评估音频中的发音是否符合标准发音规则,是否存在错误发音或误读现象。

发音完整性:评估音频中是否存在音节、词语或句子的遗漏,确保每个语音单位的发音均完整。

2. 清晰度

音质纯净度:评估音频中是否存在如电噪、背景噪音或其他干扰因素,影响音质的纯净性。

语音清晰度:评估音频中发音的清晰度,确保每个音节、字的发音清楚明了,没有模糊不清或含混不清的现象。

3. 自然度

表达自然性:评估音频中的自然韵律是否符合语言习惯,语调、及重音变化是否合理,语气是否到位,是否不存在声音过于机械或矫揉造作的现象。

发音流畅性:评估音频中的声音是否自然顺畅,节奏是否自然且有变化,无明显的卡顿、停顿或语速不一致,是否连贯且易于理解。

4. 情感表现

情感契合度:评估音频中的情感表达是否与文本内容的情感语境相符,是否能够准确传达内容的情感特征。
情感表现力:评估音频中情感表达的力度和细腻程度,是否能够有效传达情感的强度和层次,使听者感受到丰富的情感变化。

场景能力

1.语音导航、有声读物、语音播报、内容配音、直播广告

  • 语音导航:考察模型或应用针对语音导航不同场景的语音情景契合度和表现力。小类场景包括:交通提示和安全警告。
  • 有声读物:考察模型或应用针对有声读物不同场景的语音情景契合度和表现力。小类场景包括:童话故事和小说片段。
  • 语音播报:考察模型或应用针对语音播报不同场景的语音情景契合度和表现力。小类场景包括:新闻咨询和公共广播。
  • 内容配音:考察模型或应用针对内容配音不同场景的语音情景契合度和表现力。小类场景包括:纪录片和自媒体。
  • 直播广告:考察模型或应用针对直播广告不同场景的语音情景契合度和表现力。小类场景包括:商品促销和品牌宣传

场景能力的评估包括两方面:

情境契合度:评估音频中的语气、语调、音色等是否与该场景的预期风格一致,音频是否符合场景要求的氛围。
情境表现力:评估音频在不同场景下对内容生动性和适应性的表达程度,是否能够通过适当的语调、节奏和音色变化,有效支持场景需求。


3.测评方法和评估示例
测评方法

经过不断的实验与验证,我们计划使用具备语音能力识别的超级模型(和其他可行的方式),对语音合成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:

1. 测评集构建

构建流程:1.根据任务特点,撰写专项TTS文本--->2.测试--->3.修改并确定最终专项TTS文本--->4.针对每一个测评指标构建专用的测评集。

2. 评分标准

测评流程:1.调用TTS模型合成文本的音频-->2.依据评估标准-->3.使用评分规则-->4.进行打分

在定义的指标体系里,明确每一个评估标准。结合评估流程、评估标准、评分规则,将文本输入、音频文件送入测评系统进行评估,并获得评估结果。

评估示例

# 示例1

【测评任务】:准确性

【题目类型】:多音字

【文本】:在这个城市的中心区域,有一座著名的银行,这里每天人来人往,行色匆匆。

【生成语音】:

超级模型评分

----逐项打分开始----

我的思考与分析:
音频中“行色匆匆”的“行”字读音正确,读作xíng,没有读成háng。其他字词发音也准确无误,没有出现任何多音字的误读。句子完整,没有出现音节、词语或句子的遗漏。整体流畅自然。

问题及改善建议:

本次音频在多音字方面表现良好,没有发现问题,可以考虑在语气和停顿方面进行一些细微的改进,使表达更具感染力。
打分与评价开始:
  • 发音准确性:多音字“行”读音正确,其他字词发音也标准。得分:5分 
  • 发音完整性:音频完整,没有缺失任何音节、词语或句子。得分:5分

- **综合得分**:该TTS模型的平均分为 (5 + 5) / 2 = [[5.00]]
----逐项打分结束----


# 示例2
【测评任务】:清晰度
【题目类型】:诗词
【文本】:床前明月光,疑是地上霜。举头望明月,低头思故乡。
【生成语音】:

超级模型评分

----逐项打分开始----

我的思考与分析:
音频整体清晰度较高,发音标准,没有明显的口音或错误。节奏把握较为合适,符合诗歌的韵律感。音色较为自然,没有明显的机械感或电子音。背景干净,没有杂音或噪音干扰。诗句的停顿处理也比较恰当,使得诗歌的意境得以体现。

问题及改善建议:

1. 可以尝试在情感表达上进行一些微调,例如在“低头思故乡”一句中,可以略微放慢语速,并加入一丝淡淡的伤感,使情感更饱满。

2. 虽然节奏把握不错,但可以尝试在“举头望明月”和“低头思故乡”两句之间增加稍许停顿,以强化对比和情感的转折。

打分与评价开始:

  • 音质纯净度:音频背景干净,没有杂音,音质清晰纯净。得分:5分

  • 语音清晰度:发音清晰标准,每个字都能听清楚,没有含糊不清的现象。得分:5分

- **综合得分**:该TTS模型的平均分为 (5 + 5) / 2 = [[5.00]]

----逐项打分结束----


# 示例对比
【测评任务】:情感表现
【题目类型】:高兴
【文本】:哈哈,我跟你说个好消息!我拿到那份梦寐以求的工作了!对我职业生涯来说,这真是一个重要的进步。
【生成语音】:
【产品一】:4.25分
【产品二】:1.75分

测评邀请

时间规划

1. 报名时间开始:11月20日
2.参测评模型确认:11月25日
3.测评结果发布:11月底

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告
申请评测地址
邮件标题:SuperCLUE-TTS语音合成测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章