微软AI语音技术:因功能太强,不敢公开!
文摘
科技
2024-08-08 11:50
中国香港
微软的一个研究团队推出了 VALL-E 2,这是一款显著改进的语音合成人工智能系统。然而,他们认为世界尚未准备好迎接它的发布。研究团队表示,这是首个能够达到人类水平的语音生成系统,即使是对只有一小段语音样本的陌生人,该系统也能生成语音。该系统能够可靠地生成复杂的句子或重复次数较多的句子。市面上有售的软件,比如ElevenLabs,可以克隆声音,但需要更冗长的参考资料。VALL-E 2 只需几秒钟就能完成。VALL-E 2以 2023 年初推出的前身 VALL-E 为基础,使用神经编解码器语言模型来生成语音。这些模型学习将语音表示为一系列代码,类似于数字音频压缩。两项关键改进使这一突破成为可能。VALL-E 2 提供两项核心创新
首先,VALL-E 2 在解码过程中采用了一种新颖的“重复感知采样”方法,将学习到的代码转换为可听见的语音。代码的选择会动态地适应它们在先前输出序列中的重复性。第一代 VALL-E 的处理管道就是这样的......| 图片:微软
第二代 VALL-E 的处理管道 | 图片:微软
VALL-E 2 不会像 VALL-E 那样从可能的代码中随机选择,而是智能地在两种采样方法之间切换:“核采样”仅考虑最可能的代码,而随机采样则平等对待所有可能性。这种自适应切换大大提高了解码过程的稳定性,并避免了无限循环等问题。第二个核心创新是按组而不是单独对编解码器代码进行建模。VALL-E 2 将多个连续代码组合在一起,并将它们作为一种“框架”一起处理。这种代码分组缩短了语言模型的输入序列,从而加快了处理速度。同时,这种方法还通过简化非常长的上下文的处理来提高生成语音的质量。在 LibriSpeech 和 VCTK 数据集上的实验中,VALL-E 2 在生成语音的稳健性、自然性和相似性方面明显优于人类。只需 3 秒的目标说话者录音就足够了。使用更长的 10 秒语音样本,系统获得了更好的听觉效果。微软已在官网上发布了所有示例。研究人员强调,训练VALL-E 2只需要成对的语音记录及其转录本,而不需要时间码。由于滥用风险高,不予发布
据研究人员称,VALL-E 2 可用于教育、娱乐、无障碍或翻译等许多领域。然而,他们也指出了明显的滥用风险,例如在未经说话者同意的情况下模仿声音。因此,它目前仍是一个纯粹的研究项目,微软没有计划将 VALL-E 2 集成到产品中或扩大对公众的访问。他们认为,首先应该制定一个协议,以确保被听取的人同意合成,以及一种对此类内容进行数字标记的方法。这项提议大概是受到人工智能图像模型行业发展的启发,该行业正在引入C2PA 等水印。然而,它们并没有解决可靠地识别人工智能生成内容的现有问题。