在电影和视频制作的世界里,音效是讲述故事的灵魂。现在,Adobe Research 与密歇根大学的研究人员联手,将这一艺术推向了一个新的高度——他们创造了 MultiFoley,一款能够根据文本提示、参考音频或视频样本生成电影级音效的革命性 AI 系统(文末有演示视频)。
MultiFoley 的神奇能力
想象一下,你只需输入一段文本,或者提供一段参考音频,甚至是一段视频,MultiFoley 就能为你创造出所需的任何音效,从鸟鸣到打字机的敲击声,无所不能。
这不仅仅是一个简单的音效生成器,它还能够与视频画面精确同步,平均同步精度达到了惊人的0.8秒,远远超越了市场上其他系统。
技术突破与创新
这项技术的突破之处在于其48kHz的高带宽音频输出能力,这意味着 MultiFoley 生成的音效质量堪比专业录音室的效果。研究人员通过在互联网视频和专业音效库上训练 AI,使得 MultiFoley 能够理解并创造出丰富多样的声音效果。
集成多种输入方法
MultiFoley 的创新之处还在于它首次将文本、音频和视频参考的多种输入方法集成在一个模型中。
它通过每秒分析8帧的视觉特征,并将其扩展以匹配40Hz的音频采样率,实现了视频与生成音频之间的紧密同步。
性能测试与用户评价
在与现有系统的对比测试中,MultiFoley 在音视频同步和将生成的声音与文本描述匹配方面均展现出卓越的性能。用户研究显示,超过85%的参与者认为 MultiFoley 的语义一致性优于其他系统,而94.5%的人更喜欢它的同步性。
当前限制与未来展望
尽管 MultiFoley 目前还存在一些限制,比如训练数据相对较小,限制了其音效范围,以及在生成多个同时发生的声音方面存在困难,但研究人员计划很快发布源代码和模型,这无疑将推动技术的进一步发展和完善。
Adobe 产品集成与行业影响
Adobe 尚未宣布将 MultiFoley 集成到其产品中的计划,但可以预见,这项技术与 Adobe Premiere Pro 视频编辑软件中的 AI 能力相结合,将为个人创作者和制作公司带来革命性的便利,简化他们的声音设计流程。
结语
MultiFoley 的问世,不仅仅是技术的一次飞跃,更是创意工作者的福音。它预示着一个全新的创作时代的到来,一个只需简单指令就能创造出电影级音效的时代。让我们一起期待这项技术如何在未来的电影制作和创意产业中大放异彩。
Adobe 相关报道
定义智能视频编辑:Adobe Premiere 年底前开放 Firefly Video Model
更多AI热点资讯,请每日关注AI今说~