GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

科技 2024-10-25 15:30 江苏

继语言模型、图像理解、视频理解、图像生成、视频生成等模型之后，今天，智谱的多模态大模型家族再次加入新成员——GLM-4-Voice（端到端语音模型）。这一成果使得大模型具备了完整的感官系统，实现了机器与人交互的自然与流畅。

GLM-4-Voice 模型具备直接理解和生成中英文语音的能力，能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征，且具有更低的延时，支持实时打断，进一步提升交互体验。

具体来说，GLM-4-Voice具备：

情感表达和情感共鸣：模拟不同的情感和语调，如高兴、悲伤、生气、害怕等情绪，用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬，声音缺少起伏和细腻的变化。
调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说。
随时打断，灵活输入指令：根据实时的用户指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动。例如，你可以随时打断 TA，让 TA 输出新的内容，更加符合日常对话情境。
多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。

目前，我们已将该模型能力同步上线清言 app，这让清言成为国内首个具有端到端高级语音（超拟人语音）能力的大模型产品。

GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

同时，我们也很高兴地宣布，GLM-4-Voice 发布即开源，这也是我们首个开源的端到端多模态模型。

代码仓库：https://github.com/THUDM/GLM-4-Voice

技术细节

与传统的 ASR + LLM + TTS 的级联方案相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成，避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失，也解锁了更高的能力上限。

图｜GLM-4-Voice 模型架构图

GLM-4-Voice 由三个部分组成：

GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 训练，通过在 ASR 数据上有监督训练的方式得到，将连续的语音输入转化为离散的 token，每秒音频转化为 12.5 个离散 token。
GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音。
GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成，降低端到端对话延迟。

具体来说，GLM-4-Voice 以离散 token 的方式表示音频，实现了音频的输入和输出的端到端建模。具体来说，我们基于语音识别（ASR）模型以有监督方式训练了音频 Tokenizer，能够在 12.5Hz（12.5 个音频 token）单码表的超低码率下准确保留语义信息，并包含语速，情感等副语言信息。

语音合成方面，我们采用 Flow Matching 模型流式从音频 token 合成音频，最低只需要 10 个 token 合成语音，最大限度降低对话延迟。

预训练方面，为了攻克模型在语音模态下的智商和合成表现力两个难关，我们将 Speech2Speech 任务解耦合为 Speech2Text（根据用户音频做出文本回复）和 Text2Speech（根据文本回复和用户语音合成回复语音）两个任务，并设计两种预训练目标适配这两种任务形式：

Speech2Text：从文本数据中，随机选取文本句子转换为音频 token；
Text2Speech：从音频数据中，随机选取音频句子加入文本 transcription。

图｜GLM-4-Voice 预训练数据构造

GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练，拥有很强的音频理解和建模能力。为了支持高质量的语音对话，我们设计了一套流式思考架构：输入用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本模态作为参照保证回复内容的高质量，并根据用户的语音指令变化感情需求，在保证智商的情况下仍然具有端到端建模的能力，同时保持低延迟性（最低只需要输出 20 个 token 便可以合成语音）。

更详细的技术报告将在之后公布。

开源使用

我们提供了可以直接启动的 Web Demo。用户可以输入语音或文本，模型会同时给出语音和文字回复。

Preparation

首先下载仓库

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice

然后安装依赖。

pip install -r requirements.txt

由于 Decoder 模型不支持通过 transformers 初始化，因此 checkpoint 需要单独下载。

#git 模型下载，请确保已安装git clonegit-lfsgit clone https://huggingface.co/THUDM/glm-4-Voice-decode

Launch Web Demo

首先启动模型服务

python model_server.py --model-path glm-4-voice-9b

然后启动 web 服务

python web_demo.py

即可在 http://127.0.0.1:8888 访问 web demo。

AI科技之窗

全网最懂AI的科技博主！200万科技爱好者都关注的公众号。全面解读全球AI新闻。未来是人工智能提升生产效率的时代，2024年AIGC，智能驾驶，量子计算机，万物互联，虚拟现实等等应用爆发的一年，当下正在经历第四次科技革命。

最新文章

寒武纪！为所欲为？快哉！

蓝色光标：什么是真正的All in AI？

港大孵化“独角兽”，赴港上市遭疯抢！公开认购超5000倍。

什么原因？OpenAI o1准确率竟下降36.3%！

【重要通知】智算技术与算力规划设计及部署方案与实践在南京开班了！！！

国产GPU龙头千卡集群大突破，性能提升近一倍！

真恶心！寒武纪又爆雷亏7个亿。（文中有惊喜）

老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。

OpenAI新技术提效50倍

GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

大超越GPT-4,讯飞星火4.0 Turbo发布，首发11项技术及应用

4年亏损100亿，估值1000亿！特朗普垂涎三尺的独角兽即将香港上市。

拜登寐以求封杀的“中国独角兽”，寒武纪遭骂，谁之过？

9月全球代表作学术排名——量子物理与医学研究新突破，材料科学与跨学科创新成就

逆袭传奇！国产大模型黑马杀出重围，直逼腾讯宝座，73.56高分不得不服！

奥迪“臣服”国产智驾？特斯拉坐不住了，商汤解密背后真相！

“寒王”把黄阿姨推倒：“服不服？”

AI双杀诺贝尔奖！难道霍金预言成真了？

太硬了！忍了44年，那个男人终于憋不住了！发射！

焦虑了！大厂连夜紧急开会！GPT-5高达5万亿参数。比GPT-4强大100倍。GPT Next？

不可思议！龙芯GPU逆袭！英伟达黄急跳墙，算力提高10倍。

开创“寒武纪” 陈天石：“未来无处不在的AI应用的垫脚石”。

从“冷门”中诞生，“寒武纪”是怎样炼成的？ | 科技自立自强之路

谷歌T G6芯片曝光：台积电2nm，三星良率不足10%。TPU能否撼动苹果的地位？

英特尔斩获再获35亿美元补贴，美军国防芯片生产成关键转折点。

历史记录！甲骨文豪掷13万块Blackwell GPU，打造全球最大的算力集群。总投资200亿美元。

不为人知的秘密！OpenAI 草莓o1大模型，急需10万颗B200集群算力。

眼前一黑！国产GPU大地震！“华夏芯”白菜价破产，起拍价不到30000元！

麻雀变凤凰！联想美国市场份额达到14%，联想到底做对了什么？

《冰封王座》——中科寒武纪屁股做空。

离了大谱！国产GPU龙头轰然倒下，哭着：“我们到底做错了什么？”

扬眉吐气！国产高铁“芯片”打破50年垄断，西方慌了：立马降价

菲律宾飘了？前脚挑衅我国，后脚又想强卖5.4万吨榴莲，中方：白日做梦！

向全世界宣布！我国科学家新突破：打破欧美垄断，万元洋货大跌85%

3000万钻石豪车出圈，河南5位数高定钻排单紧俏，富豪：想要得靠抢

为什么说海光才是国产AI PC黑马？

坚决“去中国”到底！反华弹丸小邦外债470亿将破产，我方：再拆200条铁轨

宁愿报废也不卖给中国！俄方撕毁4.6万吨级核潜艇订单，背后留有一手？

正面硬刚！国产时间科技打破美日20年垄断，美媒崩溃：能不能别卷了

AI算力全场景应用，国产DCU加速卡卖疯了！

谷歌前CEO警告：AI控制权=世界霸权？中国想做老大！——失控的AI竞赛

又一个美国科技巨头趴窝，1000名精英被裁，想不到的竟然是。。。

"科技战升级！美国重拳出击：42家中企入'黑名单'总数量已超1300家。全球科技版图震动！

狂跌97%，中国造出首台1.9ATA“时光舱”，欧美哀叹：往后高价卖给谁？

两个宇航员都没回来，美国还想定月球时间？结局大快人心

靠一辆自行车,征服任正非的天才少年稚晖君！发布了0元模块化机器人。碾压特斯拉！

拦不住了？ 4款战机齐上舰，福建号“四试”蓄势待发，直捣美国家门

惹不起俄方，转身挑衅中国？弹丸小国千里来犯，6000吨战舰直逼东海

美国防部认怂！中国雷达巨头被移出黑名单，获胜手段很少人看懂

挑衅不成反自损？菲律宾又来碰瓷，被撞出1米大洞，中方发出最后通牒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉