腾讯的 EzAudio AI 将文本转换为逼真的声音,引发创新和辩论

文摘   2024-10-08 16:45   北京  

来自约翰斯·霍普金斯大学和腾讯AI实验室的研究人员推出了EzAudio,这是一种新的文本到音频(T2A)生成模型,承诺以前所未有的效率从文本提示中生成高质量的音效。这一进步标志着人工智能和音频技术的重大飞跃,解决了人工智能生成音频中的几个关键挑战。



EzAudio在音频波形的潜在空间中运行,摒弃了使用频谱图的传统方法。研究人员在项目网站上发表的论文中指出:“这一创新允许实现高时间分辨率,同时消除了对额外神经声码器的需求。”




变革音频AI:EzAudio-DiT的工作原理

该模型的架构,被称为EzAudio-DiT(扩散变换器),融入了多项技术创新以提升性能和效率。这些创新包括一种名为AdaLN-SOLA的新自适应层归一化技术、长跳跃连接(long-skip connections),以及诸如RoPE(旋转位置嵌入)等先进定位技术的集成。


“EzAudio生成了高度逼真的音频样本,在客观和主观评估中都超越了现有的开源模型,”研究人员声称。在对比测试中,EzAudio在多个指标上表现出色,包括弗雷谢距离(FD)、库尔贝克-莱布勒(KL)散度和初始得分(IS)。



AI音频市场升温:EzAudio的潜在影响

EzAudio的发布正值AI音频生成市场经历快速增长之际。该领域的杰出参与者ElevenLabs最近推出了一款用于文本到语音转换的iOS应用,这表明消费者对AI音频工具的兴趣日益增长。与此同时,微软和谷歌等科技巨头继续在AI语音模拟技术上进行大量投资。


Gartner预测,到2027年,40%的生成式AI解决方案将是多模态的,结合文本、图像和音频功能。这一趋势表明,像EzAudio这样专注于高质量音频生成的模型,在不断发展的AI领域中可能发挥关键作用。



然而,AI在工作场所的广泛应用并非没有担忧。德勤最近的一项研究发现,近一半的员工担心自己的工作会被AI取代。矛盾的是,该研究还显示,那些在工作中更频繁使用AI的人对工作安全的担忧更大。



伦理AI音频:探索语音技术的未来


随着AI音频生成技术日益复杂,伦理和负责任的使用问题成为关注焦点。从文本提示生成逼真音频的能力引发了人们对潜在滥用的担忧,例如制作深度伪造音频或未经授权的语音克隆。


EzAudio团队已将其代码、数据集和模型检查点公开,强调透明度并鼓励该领域的进一步研究。这种开放的态度可能加速AI音频技术的进步,同时也允许对潜在的风险和收益进行更广泛的审视。




展望未来,研究人员认为EzAudio的应用可能不仅限于音效生成,还包括语音和音乐制作。随着技术的成熟,它可能在娱乐、媒体、无障碍服务和虚拟助手等多个行业找到应用。


EzAudio标志着AI生成音频的一个关键时刻,提供了前所未有的质量和效率。其潜在应用涵盖了娱乐、无障碍服务和虚拟助手。然而,这一突破也放大了对深度伪造和语音克隆的伦理担忧。随着AI音频技术的飞速发展,挑战在于发挥其潜力的同时防止滥用。声音的未来已经到来——但我们准备好面对这个挑战了吗?

Filmsound.cn电影声音网
电影声音FilmSound.cn(同期录音网 www.LocationSound.cn),中国影视录音专业性网站,提供即时更新的全面的业界信息,行业人士相互交流,促进影视录音行业的发展和进步
 最新文章