【数字人AIGC】土木工程转行跨境电商

职场   2024-11-11 10:18   陕西  

该视频为学习大模型应用的测试,技术实现流程如下:

第1步:换声

截止2024-11-11日,市面上的换声模型林林总总,笔者测试过多款模型,目前在用的是港大的MaskGCT-TTS。对于长文本及多角色配音,需要用一定的Python编程技术才能实现。

第2步:换脸

颜值即正义的时代,各种美颜工具就是例子,但是针对视频换脸的工具,都还在进化中,笔者用的是Facefusion。其可以人脸加强,也可以调整年龄,甚至可以使用不同模型,实现卡通效果。

第3步:音频驱动口型

这一步非常难,也比较消耗显存。市面上大多数模型都是基于wav2lip。它对单照片的口型驱动还可以,但是对于视频多角度的适配还存在一定的缺陷。

假定某视频帧数为30,那么1分钟的视频需要处理的图片数量:60*30=1800张,页顶视频3分钟,笔者采用4090显卡,耗时接近1小时。如果没有N卡,就不要用CPU尝试了,会死机。

最后,对该技术感兴趣的小伙伴可以私聊。


长按联系小编


读完若有收获,欢迎点赞、在看、转发、分享🌟



注册土木
注册土木,只输出有价值的东西!
 最新文章