工具与测评 | 万字长文研究TTS前沿动态

文摘 2024-08-16 18:07 广东

一、前言

近半年以来，语音合成技术在人声的情感表达和韵律把控上有了十分显著的突破。同时在生成的门槛和便利性上也有着明显的提升，更方便、更拟人的语音将TTS带入了新的阶段。本文将围绕近期TTS的发展与变化进行讨论和研究，希望能带给各位一些启发。

二、赛道概览

什么是TTS？

TTS，即Text-To-Speech，是指输入文本、生成语音的过程。在技术上分为前端和后端，在概念上包括了多语言/跨语言合成、音色提取、声音转换、方言迁移、情感/韵律迁移等多个内涵。

TTS中的前端又叫做文本前端，主要是指文本到文本处理的这个过程。而文本处理主要是从文本中提取发音和语言学信息。主要包括以下几点：

文本正则化：比如把“1.5”换成“一点五”
韵律预测：添加句子中的韵律停顿和起伏
字形转音素：将文字转为发音信息，比如“中国”转为“Zhong1 Guo2”
多音字和变调处理：识别多音字/变调情况

后端主要指声学后端，由声学特征、波形、语音几个转化流程构成。

声学后端的主要步骤为：声学特征生成网络根据前述的发音信息，产生声学特征，然后再由声码器通过声学特征产生语音波形。在一些基于深度学习的生成网络中，可以做到去除文本前端，直接由文本生成声学特征。

这一方法在英文中较为适用，但对中文的适应性不高。而近年来，端到端的模型也不断涌现，将后端的步骤融合在一起，直接将文本映射为波形。典型代表为VITS等。

从技术方面来看，随着技术进步和实践活动的不断深化，TTS概念也发展出了多个内涵，在不同的方向上探索着技术进步和应用场景的扩展。

市场规模

音频行业以高适配性和广泛的应用场景而著称，而语音的适用性极广，能独立塑造产品和场景，还能无缝嵌入到其他场景中去，自然也能从其他产业的兴旺蓬勃中分得一杯羹。

正因如此，市场普遍对TTS的前景感到乐观，预计2022-2032期间市场规模将以14%的CAGR增长至111亿美元，下游产业也普遍有乐观的预期。当前TTS主流的下游场景，如聊天机器人、视听等，预计都将在未来相当长一段时间保持十分可观的增长。需求侧的拉动将会是TTS发展的核心助力之一。

产业链条

TTS产业链包含上游的软硬件基础设施、中游的语音合成和下游的应用场景。目前上、中游呈现出明显的融合趋势，下游多样化程度高，商业化成为潜在胜负手。

上游：软硬件基础设施

硬件基础设施主要包括算力基础等，软件基础设施包括云计算及数据基础等。其中，数据是所有AI企业的基础生产要素。其数量多寡和质量高低将会直接影响到从业厂商的研发周期、产品性能和可扩展性。数据基础设施包含数据本身和数据标记等相关服务。

中游：语音合成（最狭义的TTS赛道和厂商）

中游即为“从文字到语音”的具体合成环节，通常包括算法模型、合成平台、处理软件三个阶段。

中游厂商大致可以分为垂类科技企业和综合平台企业

垂类科技企业：如科大讯飞等，专注TTS领域的技术供应商；
综合平台企业：如BAT等，利用场景优势推动技术进步和产品落地

下游：应用落地

TTS应用场景广泛。既可以独立成单项应用，也可以嵌入其他产品的语音交互链中。导航、客服等场景，对个性化要求低，需求明确，已经在广泛使用通用TTS了，个性化TTS应用目前仍在探索中。

评价方式

目前常见的TTS质量评价分为主观和客观两种。客观评价清晰且直接，但还未能对情感表达、韵律风格进行有效测评。主观评价能有效判断情感与表达水平，但干扰因素较多。

主观评价：通过人类打分，是当前主要的评价标准

主观评价是TTS应用中最常见的评价方式。TTS内容形式相对单一，受众是人类自身，且维度相对容易判断，这使得TTS相比其他AI领域都更依赖于人类主观的评价。

最常见的主观评价方式为“平均意见得分”（Mean Opinion Score, MOS），其他还包括ABX Test、MUSHRA等。主观评价的干扰因素比较多，对于科学性和公正性的要求较高。

客观评价：通过电脑评估，无法对情感进行测评

客观评价是TTS重要的补充评价方式。由于TTS本身的主观评价占比较重，当前对于客观评价体系的研究相对较少，也没有形成大语言模型领域比较公认的测评得分体系。

在论文中，常常通过展示频谱细节、计算梅尔倒谱失真来作为客观评价的参考依据。在实践中，字词错误率、实时率、首包响应时间、并发数等是较为常用的指标。目前尚未形成对情感表达、韵律节奏、语气风格等的有效客观测评。

什么是MOS？

MOS源于电话和通信行业的“主观测量”，是对声音进行测量的主观方式。被试者需要在1-5分之间进行打分。一个合格的MOS通常要 >4分，低于3.6通常被认为“完全的不合格”。

在TTS的测评中，通常会用改良过后的CMOS（Comparative Mean Opinion Score），对需要比较的两个系统中的句子对比并排打分。更适合需要比较的场合。

而在TTS的实际应用里，听众通常会注意并评判如下两方面：

质量：清晰度、延迟感等。
表达：分词、气口、情感、声韵、停顿、重音等，这也是当前TTS的重点方向。

三、行业前沿

行业现状

目前TTS行业参与者众多，科技大厂和独立团队各擅胜场。在开源模型领域竞争激烈，内卷程度高；商业化产品领域，科技大厂以成熟的商业和产品设计能力相对领先，但也有头部独立团队/新兴公司出现。

2023-2024年，TTS情感表现力迈上了新的台阶。更拟人的模型和产品爆发式出现，有别于之前单调声线、对情感要求更高的应用持续诞生，如更好的AI数字人、有声小说、角色/短剧配音等。

发展趋势

生成语音的情感表达，和工具的场景化易用，是当前行业的两大核心趋势，分别指向生成效果和可用性。其中，在生成效果上从通用TTS向个性TTS的不断发展，是当前行业最主流的发展浪潮。

趋势1：从无情感到完全情感演绎的不断发展

TTS的应用可以粗略分为通用型和个性型，其核心差异在于对于情感和语气的表达。从无情感到低情感最终到完全情感演绎不断发展的趋势也是推动TTS发展的主要因素，进入2024年后，各家也在向个性类的产品发起挑战。

通用性的TTS发音相对机械化，声韵较平淡，对情感表达要求低。制作成本相对低，最先落地，主要用于导航、信息播报等场景。

个性类的TTS注重音色和情感，发声强调声韵和情感的表现力，要求高且精细，强调针对不同场景和需求的个性化表达。整体来说制作成本和难度更高，落地场景复杂、难度大，主要用于有声书、对话模拟等一些全场景的领域。

趋势2：向着更易用和更场景化的方向不断迭代

从工具场景来看，工具侧主要指将TTS模型的能力封装为可用的成熟产品，这代表着另一个趋势：向着更易用和更场景化的方向不断迭代。

其中，易用是指使用者可直接使用基本的TTS功能，用户能进行一定的参数/音色调整和对结果，对于生成结果能够简易编辑，并使用在其他产品中。

场景化是指针对B端和C端用户进行功能包装，针对不同行业场景和生产管线进行打通或直接的嵌入，对生成过程和结果有更精细的编辑调整。

特色产品

独立模型案例——ChatTTS

项目概况

支持中文+英文的开源TTS模型，训练数据量约10万小时，目前已开源一个基于4万小时数据训练的基础模型，但10万数据量的模型涉及版权问题暂不计划开源。质量出众，对中文的生成效果尤其出色。GitHub一上线即连续3天登顶热门榜，目前已获2.7万星标，Hugging Face已有接近2万下载量。

团队概况

2noise，位于北京的独立团队。核心成员来自早稻田大学等知名学府。团队透露，目前已经获得知名VC投资，但未透露具体名单。团队目前正在招聘技术合伙人及高级工程师。

产品细节

ChatTTS的功能非常简单直接：输入文本，选择音色，生成语音。用户在本地部署完成后，即可使用Python用文本生成语音。模型同样支持音色克隆，但没有做特别调优，在使用中并不方便。

ChatTTS目前需要在本地进行部署，没有包装为成熟的消费级产品，不过其在网页端部署了一个直接可用的简单demo。

整体评估

ChatTTS在中文对话场景中的表现十分优异，在声音的表现力、韵律和情感控制上超越了绝大多数开源模型。但其在非对话场景中的表现一般，也缺乏针对音色的相关功能。

基本特点

需要在本地进行部署。整体比较方便易用，对纯小白有一定门槛，有Web端demo可用。
能通过 [laugh]、[uv_break] 和 [lbreak] 三个token级单元对情绪进行较为精准的控制。
有基于Hugging Face/Discord的社区，但暂时没有方便的音色资源库可以使用。虽然Hugging Face社区中有人提供了支持ChatTTS语音克隆的网站，但官方对语音克隆/音色生成的支持不足。

效果评估

人声流畅自然，韵律出色，语气和情感控制较好，超过绝大部分开源TTS。
中文+数字或中文+字母夹杂时效果不佳；部分气口和语气转换方面也不够自然。
非对话场景的生成效果一般，如对有声书、新闻等内容的生成容易出现分词不对的现象。
无法完全指定音色。两次生成中即使使用同样的参数，音色也不完全固定。

独立模型案例——Fish Speech

项目概况

支持中英日三语的开源TTS模型，训练数据量约30万小时，参数量为亿级，体量小，灵活性高。上线即获得巨大关注，至今仍位于Hugging Face TTS模型的热门榜单第一。中文生成质量尤其出彩。2024年5月发布V1.1版本；2024年7月发布V1.2版本。核心特色为开源易用、情感细节、资源丰富。

团队概况

由几位So-VITS-SVC/Bert-VITS2团队成员共同打造，致力于开源SVC/TTS项目的开拓。在GitHub上拥有超过70,000星标。在Hugging Face上排名热门榜第一。

产品细节

数据规模

测试版本：1万小时英文 + 1万小时中文
发布版本：预训练5万小时英文 + 5万小时中文 + 5万小时日文，监督微调1500万小时混合样本

模型矩阵：1亿，4亿，10亿，30亿：4亿及10亿效果最佳；30亿模型仍在训练中。
消费端产品：除模型本身外，Fish Speech还推出了面向C端的易用性产品，分为“声音构建”和“语音合成”两大功能。

整体评估

表现力出色，对不同风格、情绪和韵律的把控已是开源SOTA水准。有官方社区，扩充大量热门的声音资源。在游戏、虚拟主播等领域积累深厚。对于情绪起伏较大的语句和生僻词的处理不佳。

基本特点

便捷易用，普通用户几乎可一键生成。灵活性强。效率高，最少仅需2s音源即可生成。
社区内已有诸多成熟声源可用，二次元/游戏语音资源尤其丰富。
界面简洁，用户友好。能构建并存储自己的合成结果。

效果评估

人声效果自然，对情感和语气的把控尤其出色，在中文个性化TTS中位属前列。对于情感起伏较大的语句表现欠佳，在停顿和语气词上的表现也有待加强。
未采用音素体系，因此在同音字方面的识别更出色，但是在生僻字上表现不佳。

独立模型案例——GPTSovits

项目概况

支持英语、日语、韩语、粤语和中文的开源TTS模型，底模训练时长约为5k小时，后续可能拓展至10k。支持零样本、少样本训练，最少仅需5s声音样本即可生成，支持跨语言生成，目前Github 已有3.1w星。

产品细节

GPT-Sovits集成了WebUI，可以做到开箱即用。内部集成很多常用音频处理工具，包括声音伴奏分离（UVR5）、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

整体评估

GPT-Sovits的效果十分出色，只需要少量的样本就可以产出具有人类语言细微差别、情感和独特性的声音。

基本特点

可本地部署，易用性强，可以通过Colab或HuggingFace进行部署。
零样本/少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感，更可以直接调整TTS的语速。
支持与训练数据集不同语言的推理：即，可以使用A语言训练，生成B语言，目前支持英语、日语、韩语、粤语和中文。
API调用支持较差：原版API在调用方面存在一些问题，如不能中英混合、无法按标点切分句子等，因此需要对API进行改良。

大厂模型案例——FunAudioLLM

项目概况

作为老牌的互联网和科技大厂，阿里巴巴很早就开始对TTS等AI技术进行研究，TTS一直以来都是阿里的创新探索重点，并将其纳入阿里云等对外的产品和解决方案中。2019年阿里发布的KAN-TTS成为很长一段时间内阿里TTS的主要基础。

2024年7月，阿里大模型团队发布了其最新的基于大模型的语音AI框架。FunAudioLLM包含两个模型：

SenseVoice：语音识别模型，用于高精度的多语种语音识别、情感识别和音频事件检测；
CosyVoice：语音合成模型，支持多语言、音色和情感控制。

产品细节

应用场景

“语音到语音”翻译
输入一段语音，然后自动翻译成对应语言的语音。和其他模型相比，此模型对汉语的方言和口音有着出色的识别能力。
情感美陪聊
相比其他的Chatbot，此模型的特点在于，用户能指定陪聊的风格和情绪状态，模型也能很好地传递出来。
互动式播客
在AI的加持下，听众和播主不再是单项信息传递，而是可以进行丰富的交互。
有声读物
与其他模型相比，阿里该模型能形成一个完整通路。亦可通过识别模型，识别文本中的情感表达，然后通过合成模型精确传递出来。

技术能力

FunAudioLLM的TTS模型展现出了良好的功能性和技术力，为日后开拓应用场景奠定了良好的基础。

多语言语音生成

FunAudioLLM支持超过50种语言，并且支持完全的跨语言生成——比如输入中文文本，直接生成英文语音。

零样本上下文生成

不提供Prompt，直接给一段语音，模型基于这段语音的内容和情绪，输出与之相关的上下文语音。

指令生成语音

直接给出Prompt，包括角色/场景描述、风格描述、具体角色或故事选择等，模型直接生成语音。

高情感表现力生成

FunAudioLLM的特色之一即为对情感的高表现力，如对生气、欢欣、可惜等情绪和语气的拿捏，效果出色。

大厂模型案例——Seed TTS

项目概况

字节跳动从2017年开始重点投入TTS，并成立了专门的团队进行攻坚，探索视频配音、有声书等多个应用方向，在番茄小说、剪映、头条等多个产品中落地。

当前，字节在声音复刻、语音合成等TTS领域，以及语音识别、字幕生成等泛语音AI领域，都已有比较成熟的技术和解决方案，已经封装进火山引擎等内部中台，并上线内部多个产品。

2024年6月，字节发布了他们在TTS方向上的最新成果——Seed TTS，在跨语言和声音编辑方面颇有亮点。

产品细节

应用场景

有声读物：更方便、更多样的有声书生成

与其他传统TTS产品相比，字节Seed TTS除了在文本识别、情感表达、语气调整、韵律调整、说话风格搭配等方面有着高质量之外，其精细化的编辑能力还能实现更方便的有声读物制作。

例如，当一段读物中有多个人物时，Seed TTS可以拆分成多个声音来进行朗读。

跨语言内容创作：更方便的PGC/UGC媒体工具

跨语言生成是Seed TTS的主要优势之一。给定一段中文的音频，模型能直接转换出英文音频。

同时，基于字节整体的AI技术力，跨语言创作还能实现配合视觉内容的音调调整。例如，一段英文博士的演讲，跨语言生成中文后，视频中博士的口型也可以相应调整。

技术能力

跨语言语音生成

Seed TTS支持多语言和跨语言语音生成，以中文、英双语的跨语言为主。

零样本上下文生成

不提供Prompt，直接给一段语音，模型输出与之相关的上下文语音。比如，给定一段《哪吒》电影里的角色台词，模型在无上下文的基础上继续生成台词。

语音分解与编辑

输入两段语音A和B，模型输出用B的音色念的A的文本。同时还能稳定实现对原有语音中部分字词的快速替换。

情绪控制

基于同一段文本，生成不同情绪的语调。甚至还能实现零样本生成，给定一段特定情绪的语音，生成不同情绪的上下文语音。

大厂模型案例——AudioBox

项目概况

Meta是老牌生成式AI巨头，投入大，领域广，在多个赛道都有十分亮眼的成果出现。AudioBox在2023年底由Meta Fundamental AI Research推出，以Meta在2023年6月发布的Voicebox框架为基础开发，是第一个可接受语音及文字描述来改造声音的模型。

AudioBox是Meta继Voicebox之后推出的全新TTS模型，整合了生成和编辑能力，能生成更拟人的、各种环境及风格的语音和音效。

其核心亮点是，可以输入文字描述，来对生成的语音进行修改和调整，包含四个模型：

Audiobox：整合模型；
Audiobox Speech：语音生成模型；
AudioboxSound：音效生成模型；
Audiobox SSL：自监督基座模型，上述模型均由此微调而来。

产品细节

音色克隆：上传音频样本，AI将克隆其音色，用于后续的语音生成。
语音生成：输入文本，生成语音。与其他模型不同的是，Audiobox还可以输入文字描述，来描述想要的语音特征。
语音重生成：输入音频，重新生成另一端音频。类似地，除了输入的音频和文本之外，可以输入文字描述，来描述你想要的语音风格。
音效生成：输入文字描述，生成音效。
噪音去除：输入音频，在编辑器中去除噪音。
语音编辑：将音频中的一部分进行裁剪替换。

独立产品案例——ElevenLabs

项目概况

AI初创公司，成立于2022年，专注于TTS，目前已成长为11亿估值的独角兽。其发布的 Eleven Multilingual 模型能支持多种语音的文字转语音功能。其同时还支持克隆音色/声音成功能。

拥有多样化的技术能力，和成熟且完整的产品线。声音质量高，情感丰富，在影视和媒体领域的优势尤其显著。2023年底已推出V2版本，将支持的语言扩大到29种。

项目概况

由前谷歌机器学习工程师Piotr和前Palantir部署策略师Mati创立。前者毕业于帝国理工大学。后者毕业于牛津及剑桥大学。

2024年初估值已达11亿美元，投资人包括A16Z、红杉资本等头部VC，以及前GitHub首席执行官、Instagram联合创始人、DeepMind联合创始人等多位科技圈大佬。

产品细节

ElevenLabs产品线的基础为其Eleven Multilingual模型，支持29种语言，包括英、德、法、西等等，也支持中文。当文本输入时，Eleven Multilingual可以自动识别语言并进行输出。

在基础模型之上，Eleven Labs推出了多种功能和产品包，满足不同场景和用户的需求。

主要功能

Text to Speech：最核心的功能，输入文本，选择音色，输出人声。目前支持29种语言和上千种音色。
Speech to Speech：上传或录制一段音频，然后通过调节风格、清晰度、语气等，让音频呈现不同的效果。
Text to SFX：输入文本，输出声音特效，如狮子的怒吼声、狗叫声、海浪拍打礁石的声音等。
音色克隆：输入一段音频，复制一个一模一样的AI音源。
语音提取：从一段复杂的音频中提取出干净的人声。

封装产品

Project：针对专业用户的产品，支持更长的文本输入和更精确的声音编辑，用户可以用它制作有声书等面向商业化的作品。
Dubbing：面向影视行业的产品，能自动为视频和声音配音，同时还能进行快速翻译，实现类似同声传译的效果。
Audio Native：面向文字写作者的产品，能快速将文章、新闻稿等转变成有声读物，扩大写作者的受众。
声音博物馆：声音库，采用UGC社区模式运作。用户可以生成并上传自己的声音源，并在他人使用音源的时候获取现金奖励。

商业化

ElevenLabs面向个人和企业推出了不同的付费方案。其中，针对个人的付费方案分为5种，针对企业的则是根据企业的需求进行按需定制，并采用定制化收费模式。

整体评估

ElevenLabs生成效果突出，语气和韵律比较自然，对基础情绪的把控比较精准，但在中文长文本的生成上表现有起伏。产品线成熟，已有诸多客户，在整体产品使用和服务提供上十分老道。

基本特点

非常成熟的产品设计能力，能将各项TTS和泛AI语音技术打包成多样化的产品，形成完整的产品线，如企业级、团队级、个人级多个层级，或出版、媒体、文娱等多个行业。
非开源，在定制化和灵活性上受制于开发商自身。

效果评估

效果突出，语气和韵律比较自然，基本能满足有一定情感和语气诉求的场景。
对英语的适应性较好。中文整体效果起伏较大，容易出现“商务殷语”的口音。

行业痛点

在情感表达不断进步的同时，行业的诸多核心痛点也仍然存在。从生成效果来看，所生成声音的质量仍有待提高，且仍然无法完全实现专业演员级的表现力。从实际落地来看，仍然存在较大的版权风险。

上限：对声音的表达演绎无法全部捕捉

当前的TTS效果对声音中应该有的情感无法实现100%的表达。包括：

实现更大的、更激烈和更起伏的情感表达。
实现更准确的、和每一场戏都匹配的戏剧表演力。

希望模型拥有专业演员级别的表现力和控制力。大部分时候，模型生成语音跟真人已经差别不大，但在影视剧中，演员表达情绪非常激烈，信息密度比较高，不完全能对齐。我们都希望把 Corner Case 补全。
——字节跳动Seed-TTS团队

下限：声音本身的质量仍有提升空间

当前大部分TTS产品的生成声音质量仅为堪堪可用，码率、清晰度等缺陷无法避免，距离生产级的音频质量仍有一定距离。

风险：版权风险大，从业者整体接受度不高

无论是狭义的TTS（语音人声），还是广义的TTS（歌曲音效），目前都仍然面临着较大的版权风险。且相关行业的从业者对此的接受度并不高，不少仍然抱有抵制态度。

四、游戏应用

应用前景

人声语音具有“内容”和“交互”的双重属性。因此，TTS一方面能作为内容本身，比如配音等；另一方面也能作为交互方式，如和其他玩法系统/AI能力整合在一起，带给玩家语音交互的体验。

应用评估

具体到游戏产品里，由于语音需求的类型多、要求高、场景复杂，目前仍然处于探索阶段。在部分垂类场景中已有落地应用出现，但距离成熟的、大规模的实际应用还有一段距离。

从应用的角度来说，由于在质量和演绎效果上仍有差距，目前无法在游戏中大规模成熟应用。不过，由于TTS的人声情感演绎相较之前有显著进步，因此在边缘NPC、少数已有、二创UGC等场景里已经有落地出现。

从商业化的角度来说，当前的AI语音从成本和收益的角度，对比真人CV并无优势，当前商业化进展缓慢，盈利能力不佳。

角色文本配音——对CV的替代

AI配音是最常见最核心的应用，目前最典型的商用案例为姜广涛事件后的两款头部乙女向游戏，均采用了自研模型直接为角色进行配音。其中未定莫奕AI效果上佳，绘旅人则在数月的尝试后选择了放弃。

游戏UGC工具——赋能社区生态

除前述案例外，许多游戏和开发团队都在尝试将TTS植入到游戏中，一方面减少成本、加速生产，另一方面带给玩家更多样的体验。用TTS赋能UGC社区也是游戏公司常见的做法。

BUD：用TTS技术赋能UGC创作者

著名游戏UGC平台BUD，通过与一系列外部厂商合作，将TTS技术嵌入进UGC工具里，让玩家可以一键生成人声，来为自己创建的游戏角色或动画演出配音，大大增强了沉浸感和演出效果。

目前比较常见的用法有二：

为UGC的游戏或演出生成旁白；
为玩家自建的AI NPC生成人声语音。玩家可以选择预设好的音色，也可以克隆自己的音色。

InWorld：将AI语音融进AI NPC里，赋能玩家MOD社区

InWorld为专注游戏行业的头部AI NPC公司，致力于制作AI驱动的游戏角色。为了增强玩家沉浸感，InWorld与TTS厂商合作，针对AI NPC增加了语音生成功能。

目前，这一功能已经在MOD社区落地。典型案例为Bloc制作的GTA5 MOD，玩家可以与MOD里面的NPC直接用语音对话、交流，NPC可以和玩家边聊天边一起做任务。

Paradox Interactive：用TTS技术促进玩家社区繁荣

瑞典知名历史策略类游戏开发商Paradox Interactive一直致力于维持玩家社区繁荣、鼓励社区创作自己的故事和交互内容。目前，P社正在和TTS技术厂商合作，将TTS技术嵌入到玩家社区中，让玩家可以低门槛创作有声的新故事和内容。

在 Paradox，我们的玩家和他们在游戏中创造的故事对我们来说非常重要。使用如此成熟的工具意味着我们有机会将玩家体验提升到一个全新的水平。
——Ernesto Lopez，《十字军之王3》音频总监

同时，P社也在尝试将TTS应用到游戏开发中，在最终版本完成之间减少返工和重复造轮子带来的成本。

其他：UGC+AI平台持续涌现，TTS以声音赋能UGC

AI语音作为提高游戏体验和代入感的核心要素之一，一直都是各大UGC工具方持续加码推进的方向。

掌趣科技目前正在与悠米共同开发“AI游戏创作平台”，打造编辑器+游戏分发平台，通过整合包括TTS在内的AI技术，帮助用户打造多样化UGC内容。

网易的《蛋仔派对》、昆仑万维的《Club Koala》等均在持续加码AI语音等多种AI UGC工具。

外围社区二创配音

二创一直是社区的热门内容之一，也是游戏维持内容生态热度、打造玩家侧影响力的重要方式。在TTS的加持下，玩家可以以极低的门槛为二创素材进行角色配音，大大提高了二创内容的质量。

游戏外

早年间，带有角色配音的二创视频要么为UP主自配，但代入感一般且多为整活，要么为找职业或半职业的CV配音，但对大部分创作者不具操作性。

TTS技术的进步，让玩家能以极低的门槛为自己喜爱的角色制作二创内容，无需专业配音资源，即可为二创内容制作配音。

B站UP主制作的《原神》角色小剧场，即是以AI为各种原神角色配音。尽管效果离真人CV仍有距离，但视频可看性已明显提升，近期播放量维持在十几万至几十万的良好水准。

游戏内

当前，受制于成本及终端存储空间的限制，大部分游戏无法给所有的剧情对话提供配音。

TTS技术的进步，让不少玩家选择用AI的方式给游戏内的剧情补上配音。

例如，《原神》世界任务没有配音，一直为诸多玩家所遗憾。TTS的出现和进步，开始让很多玩家选择自己为游戏内的内容补上配音，大大提高了玩家体验。

自生成配音——AI角色/数字人

比仅仅使用AI语音合成进行配音更进一步的，是把TTS技术和其他AI技术结合起来，用AI驱动游戏中的角色。《逆水寒手游》基于伏羲AI实验室的垂类大模型及一系列AI技术能力，打造了约400个具有独立情感判断AI、能和玩家进行自由对话的NPC，其在这一方向上打造的智能NPC江湖，在口碑和热度上均有不小的收益。

《逆水寒手游》为每个智能NPC设置了性格、喜好、目的、与玩家的好感度等一系列参数，同时设定了人情世故、江湖礼法、是非善恶等一系列环境规则，并且也设置有记忆系统。玩家可以与NPC进行各类交互，构建各种类型的人际关系。

在这一过程中，涉及到玩家和NPC进行语言交流的，游戏都上线了AI的实时配音。AI自动识别文本中的语气、韵律和情感，并根据不同NPC对应的音色予以配音。从文本到语音到玩家交互的一系列能力均由其自研AI引擎驱动。

包含AI自动配音在内的整个智能NPC系统受到了玩家的广泛关注。玩家尝试各种方式“调戏”NPC，探索AI生成内容的各种可能性。玩家积极性和活跃度颇高。

这一系统也收获了玩家舆论侧的良好反馈。官方以“首个游戏内AI大模型”为噱头，以TTS技术加强玩家沉浸感和体验感，获得了出众的口碑，也在上线初期成功助力获客和破圈。

五、总结

TTS行业经过持续的发展，已经实现了无情感的通用人声，并在近期逐渐实现了低情感的初步个性化人声，开始在有声书、数字人等领域逐渐落地。游戏场景对人声的情感演绎，尤其是虚构情景和戏份中的情感演绎要求较高，因此TTS暂时没有大规模成熟应用，仍处于探索尝试阶段。

行业场景

通用型人声已成熟，富有情感的个性化人声持续突破。

对人声情感要求不高的通用型TTS技术已成熟，并在过去几年前已大规模应用于导航、语音播报等场景，效果突出，用户反馈良好。富有情感的个性化TTS难度较大，是当前TTS厂商攻坚的重点。此外，对声音质量的不断优化也同样是长期方向之一。

2023-2024年以来，TTS行业在情感和韵律表达上进入了新阶段，尽管仍有瑕疵，但已经能模拟出更像人类、更富表现力的声音。在落地侧的表现为，相较于此前乏味单调的TTS应用，一批对情感要求更高、更富表现力的应用爆发式出现，如AI数字人、有声小说、角色配音、短剧旁白。

游戏场景

对虚构戏份演绎要求高，TTS仍需改进，已有试点式落地。

游戏场景对TTS的要求高。除少数对表达无特定要求的语音播报外，绝大部分游戏内角色和情节语音，都需要声音对情感、剧情、人物、场景进行富有表现力的演绎，也就是“声音的演技”要好。同时，由于游戏中大量场景为虚构场景，无现实生活参考。大量现实语音数据难以匹配和训练，进一步加大了AI语音的难度。

TTS当前在游戏领域的应用多为内容生产，以配音为主，包括预设文本配音、UGC/二创配音、自生成配音等，或者在生产过程中充当快速填充物。当前的主要痛点为，对角色戏份的演绎表达不足，无法满足游戏内独特的场景需求。此外，质量不佳、商业化进展缓慢等也是亟待改进的显著痛点。当前TTS在游戏内无法大规模成熟落地，但在少数场景中已有试点。

七、附录

[1] ChatTTS：https://github.com/2noise/ChatTTS

[2] Fish Speech：https://github.com/fishaudio/fish-speech

[3] FunAudioLLM：https://fun-audio-llm.github.io/

[4] Seed TTS：https://bytedancespeech.github.io/seedtts_tech_report/

[5] AudioBox：https://audiobox.metademolab.com/

[6] ElevenLabs：https://elevenlabs.io/app/voice-lab

关于LitGate

大家好，我是LitGate，一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例，以及已经沉淀的AI游戏创意demo，相信一定能让你大开眼界！

我们还有一个讨论群📣，如果你对AI创作感兴趣，或者有什么问题想要咨询，欢迎加入我们的讨论群，和大家一起交流学习！（PS：目前群内人数较多，为了有一个优质的讨论环境，请各位添加社区管理员企业微信账号邀请入群

更多精彩活动和功能筹备上线中，敬请期待~

关注我们，一起探索AI创作的无限可能吧！

新版官网地址：www.litgate.ai

LitGate

AI赋能游戏开发，一站式创作者社区 http://www.litgate.ai