太可怕!15秒录音AI克隆!以假乱真!

文摘   2024-10-28 15:01   北京  
大家好,我是川哥。
10月30号晚上八点,我会在视频号上分享一场内部直播,主要分享几个搞钱项目,比如抖/快无人直播带货、小红书引流变现、IP合伙人项目等等,务必不要错过,抓紧预约!错过无回放!!
点击预约,准时参加直播
以下正文:

前段时间“三只羊录音事件”可谓是闹得沸沸扬扬,最后说是AI语音克隆的锅,草草收尾了事。
不过今天咱们不聊八卦,专心来聊聊AI。
记得当初刚爆出来说录音是AI合成的,一堆AI博主纷纷出来打假。
老读者应该知道,从去年开始,川哥就给大家分享过不少AI语音克隆的工具,对这玩意儿还是有点发言权的。
说实话,那段录音刚曝光的时候,川哥也是反复听了好几遍。
但说真的,我是真听不出来这到底是真人录的,还是AI合成的。。。
毕竟现在的AI技术,确实能做到以假乱真的效果,这方面川哥是深有体会的。
尤其是现在的AI,几秒钟的音频就能克隆出七八分像的音色,真假难辨。
前几天我还给大家分享了篇AI爆改西游记的文章,用的就是fish.audio这个语音克隆的AI工具。
要说fish.audio,可以说是从内测开始,川哥就在跟兄弟们安利,简单、好用、效果还好。
虽然这都过去几个月了,川哥依然觉得它是目前市面上效果最好的语音克隆工具之一。
当然了,也有不少兄弟和我吐槽说fish.audio现在开始收费了,虽然每天还有点免费额度,但真要用得爽,氪金是免不了的……
不过川哥觉得,为优秀的产品付费,本就是一件值得推崇的事儿,毕竟人家也得吃饭,收费了才能做得更长久。
所以fish.audio刚一开始收费,川哥就毫不犹豫开通了会员。
但我也知道,有些兄弟可能需求不大,就偶尔玩玩,这时候花小一百块钱开会员就显得有些不值了。
所以今天川哥就给大家再分享一个效果不输fish.audio的免费语音克隆工具
——F5-TTS
这个是上海交大开源的一个语音克隆项目。
只需要10到15秒的音频素材就能实现音色克隆,也是川哥体验下来还原度最高的工具之一。
F5-TTS有两种使用方式:
一种是用huggingface的在线服务,另一种是本地部署。
考虑到国内的网络环境,想直接用huggingface的在线服务有点困难,所以本地部署可能更容易实现点儿。
但川哥一看到各种各样的代码就头大,毕竟我对代码这些东西是一窍不通,所以干脆看看网上有没有大佬整理好的安装包。
这时候AI搜索的优势就显现出来了。
川哥直接打开秘塔AI搜索,让它帮忙找F5-TTS的安装包,一分钟不到,两个完整的下载链接就到手了,完事儿!
AI的效率是真高,这搁之前咋不得找上一两个小时才能找到一份能用的……
链接给兄弟们放公众号后台了,直接回复“TTS”就可以自动获取。
解压之后直接双击运行脚本:
然后等待个10秒钟左右就会显示这几行提示,把提示里的url直接复制到浏览器打开:
这就是F5-TTS的本地Web界面啦:
接下来呢,川哥给兄弟们演示讲解这个界面里的一些功能。
F5-TTS主要有三个功能。
第一个就是最简单的语音克隆。
比如说,我们上传一段音频文件,音频时长控制在10~15秒左右。
川哥这次选了一段川哥自己的音频。
假设我们现在用这个音色作为样本,想要生成一段语音,在这个待生成文本框里输入你想生成的内容。
下面有两个模型可以选择,一个是F5-TTS,一个是E2-TTS。
F5-TTS使用的是ConvNext V2扩散模型,而E2-TTS用的是Flat-UNet Transformer。
具体是什么意思川哥其实也不懂,就只需要知道F5-TTS速度更快,E2-TTS更接近原音色就可以了。
不过川哥实际体验下来其实感觉不到这俩模型之间有什么比较明显的差距,所以用哪个都无所谓。
下面还有一个高级设置。
首先,它要求我们输入原音频的文本,这个是可选项,可填可不填。
不填的话它自动会默认用OpenAI Whisper把这段音频转录成文字,作为参考。
然后就是是否移除静音的选项。
这个模型在处理较长音频时,容易生成一些静音,比如一些不必要的停顿。
如果你不需要这些静音,可以把这个功能勾选上,不过效果可能没办法保证。
接下来是语速的控制和交叉淡化的时长,川哥一般是直接默认,大家按照自己的习惯来就可以。
都配置好之后点击合成,然后等待个10来秒左右音频就制作完成了。
简单听一下效果:
接着是第二个功能——生成播客。
比如说你有一段对话,需要多个发音人,就可以用到这个播客功能。
在这里你可以添加不同的发言人,还可以给每个发言人设置他们自己的音色。
比如说川哥想和雷军对话。
操作方法和刚才的音频克隆差不多,就是分别上传川哥和雷军的音频:
然后输入对话的脚本。
这一点川哥需要提醒一下,每段音频需要起一个名字,然后在每个段落的开头输入说话人的姓名,比如这样:
然后还有一个地方非常重要,就是脚本中间的冒号一定要用英文输入法,不然的话会直接报错。
接着直接点击生成,等待个十几秒,音频就制作好了,简单听下效果:
是不是很逼真?
音色几乎完全还原了,比川哥之前用过的绝大多数AI语音克隆工具效果都要好!
最后一个功能是多种语音类型的生成。
你可以上传不同情绪的音频,比如开心的、气愤的、失落的等等。
上传完之后,它会根据文本语义自动匹配对应的音频,最后合成一段带有多种情绪的混合音频。
这样生成的语音更生动,情绪表达也更丰富,效果自然也就更逼真了。
不过川哥的情绪表达能力有限,没办法一下子整出那么多情绪鲜明的音频,这个功能就不给大家献丑了,哈哈。
感兴趣的兄弟们可以自己去试试看,真的挺有趣的。
说实话,从去年开始,川哥就一直在尝试各种音色克隆工具,到现在只需要十几秒的音频素材,就能克隆出相似度这么高的音色,只能说AI技术的发展速度实在太快了。
但随之而来的,是犯罪造假的成本越来越低。
什么是真的,什么是假的,有时候是真分辨不出来。
虽然技术无罪,但兄弟们还是得多长个心眼儿,防骗意识必须跟上才行。
ok,今天先说到这,老规矩,看完文章记得右下角给川哥点赞。

------

我是前线玩家创始人阿川,有3000➕创业者会员,每天会在朋友圈分享很多搞钱项目案例,聊一些做副业的经验。

有很多不方便公开发公众号的搞钱案例,关于AI玩法,AI搞钱,互联网副业资源。

我都会分享在朋友圈!

扫码加我本人微信👇

围观我每日10条朋友圈




阿川同学
点我关注,免费领取AI4.0使用工具以及搞钱教程方法
 最新文章