火山引擎语音解决方案总监 杨相会
文末获取直播回放及嘉宾分享PPT
火山引擎语音to B的时间比较晚,但在很多的场景下是能够做到独有性的。因为我们本身有非常丰富的应用场景,在服务抖音、头条的过程中,积累了很多我们认为有特点的能力。
比如在抖音里,大家可能会经常用到AI配字幕或者AI配音;其次,可能很多人都已经接触过豆包,并尝试进行过自然、高效的语音聊天;在头条里我们可以用声音去播新闻等内容。
我们把内部的能力汇聚成一个比较有特色的to B的产品,然后再从to B搜集到各种各样的市场反馈进行内部赋能,所以火山是有一个非常正向的循环,保证能力既有特色,且能满足市场需求。同一团队可以同时服务司内的各个业务条线和司外的各个业务场景。
豆包语音模型家族主要包括语音合成模型、声音复刻模型和语音识别模型,我们增加了大模型的能力,从而实现一些之前无法实现的效果,解决一些之前遗留的问题。
Seed-TTS:新一代语音生成模型
但凡涉及语音,大家都在想什么样的语音、声音才是最好的声音。
比如央视名嘴康辉的声音虽然非常好,但是并不是一个适合对话拟人的声音,不能用来做客服。基于想把声音做到真实拟人的愿景,我们在今年5月份发布了SeedTTS的模型家族,这个模型其实就是重构了语音生成的模型。
它的推理其实比较简单,首先我们会把文本和语音同时送给模型,它会生成整个语音信号的骨架,接下来再用一个扩散模型去把骨架的细节进行还原,最后基于一个高质量的声码器生成语音。这其实是综合借用了语言模型和图像模型的思路和成果,比如说像自回归模型,它其实就是类比一个语言模型,而Diffusion模型其实就是一个图像模型。
自回归模型的优势是具备很强的理解能力和节奏生成的能力,而扩散模型会有很强的细节还原能力,所以综合下来就可以实现非常真实的、拟人的、有细节的声音。
当然这套模型其实可以用做语音合成或者一句话的复刻和声音转换,语音合成模型其实也是基于这个底座,我们做到了有感情和超拟人,它更像真人说话,而且有自己的节奏和情感。
火山引擎嘉宾分享PPT
除了自动的情感理解、演绎和超高自然度之外,火山还做了很多工程化的工作,让模型更加稳定、高效,所以也能够在短时间之内打造很多的超自然的声音。
目前已经积累了300多个声音,并对to B开放超过70个,可以涵盖各种常见的使用场景。比如通话类、播报类、配音类,另外在声音风格上也有柔美、霸气等,大家可以根据自己的需求在音库里面选择声音。当然在有些场景下,可能需要一个独一无二的声音,这就会用到我们超级混音的能力。可以利用两种公版音色调节选择不同的比例,生成一个新的声音。
此外,我们还可以复刻声音,比如录制一个自己的声音用于混音,这就可以进一步扩展声音范围的上限。
复刻就是语音合成。在很多场景下,企业是希望有特定的声音的,比如利用内部金牌坐席的声音进行播报,或者打造一个数字客服。这也不是一个新的能力,但之前可能需要读很多话,甚至可能要录一个小时用作素材。其实这个录制成本非常高,一个专业的声优录制半小时的音频通常可能要1~2天的时间,所以它的门槛高度就限制了这个能力应用的范围。
大模型可以很好地解决这个问题,我们叫秒级复刻,它有两层含义。第一层是我们训练的音频最短只需要录制5秒钟就可以进行复刻,这个录制的成本门槛非常低。而且录制之后,想体验这个效果的时间也是秒级的,因为我们没有所谓的训练上线时间,可以直接送入模型体验。
此外可以做到跨语种复刻,例如一个跨国企业的老板只会说中文,但是他想用英文去跟员工进行交互,我们就可以用这个复刻的能力去录制他的中文声音,然后生成英文的话语,实测效果也是比较好的。
以上这两个能力其实都是基于SeedTTS,对于ASR,其实我们同样也做了很多工作。第一点就是垂直领域是需要单独训练的,因为传统模型的每个模型都要单独去调用,当业务场景比较多时,我们要维护很多的模型,其实整个维护成本也非常高。
在一些复杂的场景下,会有噪音和背景音,这些其实也会影响整体的识别准确率。另外在一些特定的场景下,对专有名词的识别准确率其实也是差强人意的。
最后是“老大难”的问题,由于我国幅员辽阔、南北方言差异非常大,传统的模型要么不能识别,要么得有专门的模型去进行识别,它的使用限制也非常高。所以我们希望能够通过一个模型统一去解决这些问题。
火山引擎嘉宾分享PPT
如上图是大概的模型架构,底座还是基于Text LLM去做的语音转写,但我们会前置训练这个音频的解码器和转换器,能够把音频信号转换成大模型能够识别的文本信号,然后再用文本模型非常强的理解和推理能力,去生成最终的识别效果。
当然这个过程中因为大模型本身的原因,可能会有幻想等问题。所以我们也打造了一套非常简单高效的分阶段训练方案,首先做一个有监督的预训练,然后进行多轮的微调,包括基础的微调和Contexts的微调,最后进行强化训练,保证这个模型的稳定性和效率。
经过测试,无论是在通用的场景,还是在金融、音乐、科技教育等垂直场景,它识别的准确率都有明显的提升。
此外,我们还创新地提出了上下文感知的能力,基于context的输入,除了输入音频之外,还可以告诉模型这段话识别的内容是什么样的场景,可能会有什么样的词汇,然后模型就会按照指令进行识别。
比如坐席打电话去卖一个保险产品,这个保险产品有名称和各种规则,如果我们告诉大模型是为了去做卖保险这件事,它就可以在这个场景下有非常高的识别准确率。
对于多方言,我们实现了一个模型统一进行识别,目前支持粤语、闽南语、四川话、上海话、陕西话及北方大区的各种口音,像东北、北京、河北、中原口音等。
解决大模型落地难的问题
如今,大家可能更关注的是落地的难易程度,我们在做工程化的过程中,其实还是会把所有大模型的能力尽可能地和传统模型进行对齐。
比如同样会推出豆包语音合成模型、声音复刻模型以及语音识别,我们会区分它是流式语音识别还是录音文件识别。另外我们也提供丰富的接口,像日常会用到的HTTP、web socket、SDK等,包括客服场景最常用的MRCP接口。如果企业已经在做传统模型,切换到火山也是非常顺滑且低成本的。
另外除了原子能力和API之外,我们还会有一个比较完整的交互的方案,综合了火山引擎、豆包语音模型以及豆包语言模型,包括ITC的服务,打造了一个综合的、完整的、低时延和高效的交互链路。
在这个链路里做了很多优化,比如语音合成模型。众所周知,大模型其实是逐字逐词地输出结果,如果用传统模型的话,可能要去进行展句切句,等一整句话输出结束再去调用这个语音合成模型,整体的调用是非常复杂和低效的。但我们支持了流式文本的输入,可以直接调用语音合成模型,这样整体的时延会有提升。
在语音识别方面,我们也做了一些特殊的优化,比如支持高效的双向流式的模式,比如可以流式的收入音频同时流式的反馈文本,同时还有一个流式的输入音频整句返回文本的模式。这种模式的好处就是我既能够保证整体的时延,同时准确率有进一步的提升。
当然除了客服场景,我们也在跟行业内广泛开展合作,比如我们跟大模型的客户一起打造有温度的大模型的语音交互助手,和手机厂商一起打造各种手机助手和在线的教育厂商打造有温度的AI老师等。
在未来我们会持续地去提升整体模型的效果,降低交互的时延,也希望能够把好的模型去运用到大家的产品中,最终转换成更大的价值。
年会精彩回放
PLAYBACK
文稿来源 | 2024(第九届)中国数字服务产业发展年会
分享嘉宾 | 火山引擎语音解决方案总监 杨相会
主题分享 | 豆包语音新势力,客服平台新活力
整理编排 | 如耶 蔡蔡
↓↓ 了解近期活动资讯请点击下方图片 ↓↓