又一款开源的实时语音交互的视频数字人,效果非常不错,附测试地址

职场   2024-11-11 18:18   北京  
实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。可自定义形象与音色,支持音色克隆,首包延迟低至3s。
源码地址:
https://github.com/Henry-23/VideoChat
在线demo:
https://www.modelscope.cn/studios/AI-ModelScope/video_chat

试用效果:
口型对的还是很满意的。


技术栈:

  • ASR (Automatic Speech Recognition): FunASR
  • LLM (Large Language Model): Qwen
  • End-to-end MLLM (Multimodal Large Language Model): GLM-4-Voice
  • TTS (Text to speech): GPT-SoVITS, CosyVoice, edge-tts
  • THG (Talking Head Generation): MuseTalk


模型下载:
1. MuseTalk
https://github.com/TMElyralab/MuseTalk/blob/main/README.md#download-weights
2. GPT-SoVITS
https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md#%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B
3. TTS
提供了GPT_SoVits_TTS和CosyVoice_API分别处理本地推理和调用API。若不使用API-KEY,可直接删除CosyVoice_API相关的内容,使用Edge_TTS调用Edge浏览器的免费TTS服务进行推理。



本地部署:
显卡要求:
  • 级联方案(ASR-LLM-TTS-THG):约8G,首包约3s(单张A100)。
  • 端到端语音方案(MLLM-THG):约20G,首包约7s(单张A100)。

自定义数字人:

自定义数字人形象

  1. /data/video/中添加录制好的数字人形象视频

  2. 修改/src/thg.pyMuse_Talk类的avatar_list,加入(形象名, bbox_shfit),关于bbox_shift的说明参考这个链接

  3. /app.py中Gradio的avatar_name中加入数字人形象名后重新启动服务,等待完成初始化即可。

自定义数字人音色

GPT-SoVits支持自定义音色。demo中可使用音色克隆功能,上传任意语音内容的参考音频后开始对话,或将音色永久添加到demo中:

  1. /data/audio中添加音色参考音频,音频长度3-10s,命名格式为x.wav

  2. /app.py中Gradio的avatar_voice中加入音色名(命名格式为x (GPT-SoVits))后重新启动服务。

  3. TTS选型选择GPT-SoVits,开始对话




有相同兴趣爱好的可通过加星球的方式添加作者微信。加入后查看置顶评论可加微信交流。
关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。


前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章