情感表达和情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。
调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。
随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。
多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
GLM-4-Voice:智谱新一代端到端语音大模型,同步开源。
代码仓库:https://github.com/THUDM/GLM-4-Voice
技术细节
图|GLM-4-Voice 模型架构图
GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 训练,通过在 ASR 数据上有监督训练的方式得到,将连续的语音输入转化为离散的 token,每秒音频转化为 12.5 个离散 token。
GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音。
GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成,降低端到端对话延迟。
Speech2Text:从文本数据中,随机选取文本句子转换为音频 token;
Text2Speech:从音频数据中,随机选取音频句子加入文本 transcription。
开源使用
Preparation
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice
cd GLM-4-Voice
pip install -r requirements.txt
#git 模型下载,请确保已安装
git clone
git-lfsgit clone https://huggingface.co/THUDM/glm-4-Voice-decode
Launch Web Demo
python model_server.py --model-path glm-4-voice-9b
python web_demo.py