该视频为学习大模型应用的测试,技术实现流程如下:
第1步:换声
截止2024-11-11日,市面上的换声模型林林总总,笔者测试过多款模型,目前在用的是港大的MaskGCT-TTS。对于长文本及多角色配音,需要用一定的Python编程技术才能实现。
第2步:换脸
颜值即正义的时代,各种美颜工具就是例子,但是针对视频换脸的工具,都还在进化中,笔者用的是Facefusion。其可以人脸加强,也可以调整年龄,甚至可以使用不同模型,实现卡通效果。
第3步:音频驱动口型
这一步非常难,也比较消耗显存。市面上大多数模型都是基于wav2lip。它对单照片的口型驱动还可以,但是对于视频多角度的适配还存在一定的缺陷。
假定某视频帧数为30,那么1分钟的视频需要处理的图片数量:60*30=1800张,页顶视频3分钟,笔者采用4090显卡,耗时接近1小时。如果没有N卡,就不要用CPU尝试了,会死机。
最后,对该技术感兴趣的小伙伴可以私聊。
长按联系小编
读完若有收获,欢迎点赞、在看、转发、分享🌟