技术栈:
ASR (Automatic Speech Recognition): FunASR LLM (Large Language Model): Qwen End-to-end MLLM (Multimodal Large Language Model): GLM-4-Voice TTS (Text to speech): GPT-SoVITS, CosyVoice, edge-tts THG (Talking Head Generation): MuseTalk
本地部署:
级联方案(ASR-LLM-TTS-THG):约8G,首包约3s(单张A100)。 端到端语音方案(MLLM-THG):约20G,首包约7s(单张A100)。
自定义数字人:
自定义数字人形象
在
/data/video/
中添加录制好的数字人形象视频修改
/src/thg.py
中Muse_Talk
类的avatar_list
,加入(形象名, bbox_shfit)
,关于bbox_shift的说明参考这个链接在
/app.py
中Gradio的avatar_name
中加入数字人形象名后重新启动服务,等待完成初始化即可。
自定义数字人音色
GPT-SoVits
支持自定义音色。demo中可使用音色克隆功能,上传任意语音内容的参考音频后开始对话,或将音色永久添加到demo中:
在
/data/audio
中添加音色参考音频,音频长度3-10s,命名格式为x.wav
在
/app.py
中Gradio的avatar_voice
中加入音色名(命名格式为x (GPT-SoVits)
)后重新启动服务。TTS选型选择
GPT-SoVits
,开始对话