【勇探AI路 无畏前行】小样本音色定制平台全面开放,一句话实现音色克隆!

科技   2024-12-09 19:04   黑龙江  

SUMMARY REPORT


勇探AI路 无畏前行

小样本音色定制平台全面开放

一句话实现音色克隆


INTRODUCTION


为深入贯彻集团战略规划体系,紧密围绕软研院工作主线,智能中心团队聚焦2024年全年目标,基于已有100%自研掌控的语音合成能力,进行了语音大模型的升级,开发出以语音合成大模型为基础构建的小样本定制平台,支持用户仅用一句10秒钟内的音频即可得到与自己音色相似度高达85%语音合成MOS值高达4.0分的语音合成播报效果,实现了千人千面的小样本音频定制能力。为深度赋能智慧运营、加大数字化AI应用布局奠定了坚实的基础。


目前小样本定制平台已实现音色克隆全流程的功能,使用用户10秒内的音频即可完成音色克隆。在上传待克隆音色音频方面,支持上传音频在线录制音频两种方式;在原始音频的处理方面,支持对用户提供的音频进行降噪处理,以期提升音色克隆效果;在克隆音频下载方面,支持常见音频下载格式,如WAV。



该平台语音合成能力依托生成对抗网络生成音频的大模型架构,训练生成对抗网络架构的音频量化模型。模型首先将输入的音频量化成一系列的Token作为学习目标,然后将Token再还原为音频,并实现了该模型架构在国产化统信操作系统上的适配。目前该模型架构已经实现了仅需要10秒内用户音频、用户等待时间不超过3秒即可完成50字文本的语音克隆能力。


目前小样本快速音色定制平台可以通过智慧门户-智能中心-运营平台进入,从而进行音色克隆功能的使用。小样本快速音色定制平台未来预期新增长文本语音克隆英语一句话克隆以及流式播报功能,可以满足长音频克隆、英语、实时音频生成等场景下的语音合成需求,新增功能预计在25年陆续上线。



笃行不怠,砥砺前行,智能中心在未来将继续纵深推进集团战略执行体系落实落透。坚持以场景为牵引,把用户感知放到首位,稳步推进AI全场景融合,加速强化业务赋能,助力客服业务提质增效新跃升。





图文丨智慧客服 周雨佳

编辑丨智慧客服 周雨佳

审核 | 王涛 于向丽 刘小菁 

校对 | 党委办公室(办公室)


联通哈尔滨软件研究院
专业的软件研发机构
 最新文章