今天这个开源项目挺有意思。
低延迟的大模型+数字人,所以有了一个响亮的概念,实时语音交互数字人。
相当于是在大模型回答问题的同时,也在同步驱动TTS生成音频,音频也在同步驱动图片口型,所以整个链路就会非常快的运行,完成实时的低延迟数字人功能。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
VideoChat是一个实时语音交互数字人开源项目,为用户提供实时、低延迟的数字人AI问答体验。支持跨平台浏览器使用,确保在不同设备间的无缝连接。可以克隆声音、自定义数字人形象,有两套方案:端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。
DEMO
先来一段生成好的数字人视频。
下面这个视频演示了整个交互的过程,大模型回答的过程中,也可以看到右侧的数字人在实时输出。
但是在使用中,也发现一些问题,像下面这个视频演示的这样。
VideoChat的实时数字人是分段去完成然后拼接的,如果驱动速度跟不上的话,会有卡壳的现象。还有个很重要的问题,卡壳没事,可以停在那里等一等,但现在是有点错乱,希望作者可以调整下。
如果大家用这个项目的时候介意这一点,也可以自己动手改改,毕竟自力更生丰衣足食。
技术选型
ASR(自动语音识别):FunASR
LLM(大语言模型):Qwen
端到端MLLM(多模态大语言模型):GLM-4-Voice
TTS(文本转语音):GPT-SoVITS, CosyVoice, edge-tts
THG(虚拟人生成):MuseTalk
项目链接
https://www.dongaigc.com/p/Henry-23/VideoChat
寻找更多开源项目,就到 懂AI(dongai.ai)
软件开发,AI项目快速落地,专业团队高质量交付。
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「AGI光年」公众号
获取每日最新资讯
关注「向量光年」公众号
加速全行业向AI转变