近日,字节跳动开发了一款名为PersonaTalk的AI模型,该模型可以为视频精准配音。
这项技术不仅能够实现声音与嘴型的完美同步,还能在生成新视频时保留人物的原始说话风格、面部特征和表情,使得视频看起来更加真实自然。
PersonaTalk的核心能力包括:
声音同步嘴型:PersonaTalk能够确保在给视频添加新声音时,人物的嘴部动作与新语音的口型完全匹配。这意味着,无论视频中的人物是说话、微笑还是做出其他面部表情,他们的嘴唇动作都能与新的语音完美同步,就像他们真的在说出那些话一样。
保留人物特点:在创建新视频内容时,PersonaTalk会尽量保留视频中人物的原有特点,包括他们的说话方式、脸型和表情等。这种保留个性特征的能力,使得使用PersonaTalk技术生成的视频能够保持高度的真实感和自然感,避免出现僵硬或不协调的情况。
适用于不同人物:与传统的配音技术不同,PersonaTalk不需要大量的数据来单独训练每一个特定的人物。这使得该技术能够适应不同的人物和多样化的场景,为视频制作提供了更大的灵活性和便利性。
PersonaTalk是一个基于注意力机制的两阶段框架,包括几何结构和人脸渲染两部分。在第一阶段,它使用混合几何估计方法从参考视频中提取说话者的面部几何系数。
然后,它从目标音频中提取并编码音频特征,并从几何统计特征中学习个性化说话风格,将其注入音频特征中。 它根据参考视频的几何系数和目标音频生成与目标音频口型同步且保留个性化说话风格的目标几何图形。
在第二阶段,它使用双重注意力机制的人脸渲染器合成目标说话人脸,并使用精心设计的参考选择策略,生成与目标几何图形口型同步的人脸。
该模型通过从参考视频中学习说话者的说话风格,并将其应用于目标音频的配音中,从而实现高度个性化的配音效果。
此外,它还采用了一种双重注意力机制的人脸渲染器,可以分别对嘴唇和面部其他区域进行纹理采样,从而更好地保留面部细节,并消除常见的牙齿闪烁和粘连伪影。
实验结果表明,与其他最先进的模型相比,PersonaTalk在视觉质量、口型同步精度和人物个性化保留方面均具有显著优势。
此外,作为一个通用模型,PersonaTalk无需任何微调即可实现与特定人物模型相当的性能。
虽然PersonaTalk在人脸视频配音方面取得了显著的成果,但由于训练数据的局限性,该模型在驱动非人类化身(如卡通人物)方面的性能可能略低,并且在处理大幅度面部姿势时可能会出现伪影。
为了防止该技术被滥用,字节跳动计划将核心模型的访问权限限制在研究机构范围内。
项目地址:https://grisoon.github.io/PersonaTalk/
关于AIbase>>
一个致力于让更多人了解并参与未来AI发展的平台
这里有最新AI资讯、100+ AI赚钱案例库、15000+AI产品库、保姆级AI工具教程
更多AI硬核内容直接访问AiBase官网,一键开启你的AGI之旅!
官网:https://www.aibase.com/zh/tools/
↓点击阅读原文,进AIbase官网