开源实时语音交互数字人,支持声音克隆和自定义形象,首包延迟低至3秒。

科技   2024-11-14 20:01   山东  

今天这个开源项目挺有意思。


低延迟的大模型+数字人,所以有了一个响亮的概念,实时语音交互数字人


相当于是在大模型回答问题的同时,也在同步驱动TTS生成音频,音频也在同步驱动图片口型,所以整个链路就会非常快的运行,完成实时的低延迟数字人功能。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


VideoChat是一个实时语音交互数字人开源项目,为用户提供实时、低延迟的数字人AI问答体验。支持跨平台浏览器使用,确保在不同设备间的无缝连接。可以克隆声音、自定义数字人形象,有两套方案:端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。


DEMO


先来一段生成好的数字人视频。



下面这个视频演示了整个交互的过程,大模型回答的过程中,也可以看到右侧的数字人在实时输出。



但是在使用中,也发现一些问题,像下面这个视频演示的这样。



VideoChat的实时数字人是分段去完成然后拼接的,如果驱动速度跟不上的话,会有卡壳的现象。还有个很重要的问题,卡壳没事,可以停在那里等一等,但现在是有点错乱,希望作者可以调整下。


如果大家用这个项目的时候介意这一点,也可以自己动手改改,毕竟自力更生丰衣足食。


技术选型


  • ASR(自动语音识别):FunASR

  • LLM(大语言模型):Qwen

  • 端到端MLLM(多模态大语言模型):GLM-4-Voice

  • TTS(文本转语音):GPT-SoVITS, CosyVoice, edge-tts

  • THG(虚拟人生成):MuseTalk


项目链接


https://www.dongaigc.com/p/Henry-23/VideoChat



寻找更多开源项目,就到 懂AI(dongai.ai)


软件开发,AI项目快速落地,专业团队高质量交付。


 关注「开源AI项目落地」公众号

与AI时代更靠近一点

 关注「AGI光年」公众号

获取每日最新资讯

 关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地
分享有价值的开源项目,并且致力于Ai项目的落地。
 最新文章