情感表达和情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。
调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。
随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。
多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
02:32
代码仓库:https://github.com/THUDM/GLM-4-Voice
技术细节
图|GLM-4-Voice 模型架构图
GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 训练,通过在 ASR 数据上有监督训练的方式得到,将连续的语音输入转化为离散的 token,每秒音频转化为 12.5 个离散 token。
GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音。
GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成,降低端到端对话延迟。
Speech2Text:从文本数据中,随机选取文本句子转换为音频 token;
Text2Speech:从音频数据中,随机选取音频句子加入文本 transcription。
开源使用
Preparation
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice
cd GLM-4-Voice
pip install -r requirements.txt
#git 模型下载,请确保已安装
git clone
git-lfsgit clone https://huggingface.co/THUDM/glm-4-Voice-decode
Launch Web Demo
python model_server.py --model-path glm-4-voice-9b
python web_demo.py
GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。
在使用工具方面。我们今天也带来了一个新的进展:AutoGLM。智谱一直希望模型的工具属性提升,能力边界持续扩大。于是非常自然的,我们想到了和用户接触最多的东西——手机。
这就是我们 AutoGLM 的 phone use 能力,只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
AutoGLM 基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」。其中的核心技术WebRL,克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人,在成长过程中,不断获取新技能。
AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。例如,在 AndroidLab 评测基准上,AutoGLM 显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。在 WebArena-Lite 评测基准中,AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升,大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。
从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具,背后是我们的新的基座模型能力——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o及405B参数量的 Llama3.1 相当。
基于GLM-4-Plus,我们过去几年在多模态领域探索取得了一些阶段性成果。今天我们发布的GLM-4-Voice,让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。
面向 AGI 的分级,智谱也有自己的一些思考。L1 语言能力,L2 逻辑与思维能力,L3 工具能力大家是比较有共识的。我们认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。
人工智能多大程度上能够做到像人脑一样,甚至超越它?成为许多人所说的超级人工智能?从这个终极答案上看,我们大致也将在未来相当长的一段时间处于42%这个阶段。(42 这个百分比灵感来自《银河系漫游指南》,是关于生命、宇宙以及任何事情的终极答案。)
大脑是一个非常复杂的系统,包括听觉、视觉、语言等多模态的感知与理解能力,短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。另外,作为人身体的指挥器官,大脑还懂得调动身体的各个部分协同运转,使用工具。
正如上面这张图上显示的,有些能力今天的GLM大模型已经解锁,比如文本,视觉,声音,比如一定的逻辑和使用工具的能力,有些模态的能力树还没有点亮,这些也是智谱未来会一直为之努力的方向。
而我们面向 AGI 的技术升级曲线,实际上就是围绕大脑的能力维度展开的。从2021年以来,特别是最近一年多来的升级,大模型在L1 语言能力的方面完成的已经很好了(大概80%-90%)。
从语言能力再往上,事情就变得复杂。我们希望在不远的未来实现各种模态混合训练的原生多模态模型,它不仅在认知能力上比肩人类,同时能在价值观层面和人类对齐,确保 AI 的安全可控。智谱已经在这方面做了大量工作,将在适当的时候给大家及时公布进展。
AutoGLM 可以看作是智谱在 L3 工具能力方面的探索和尝试,希望我们的努力能够推动人机交互范式实现新转变,为构建 GLM-OS ,即以大模型为中心的通用计算系统打好基础。我们认为,大模型的工具能力最终应该像人类一样,感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务。
让我们一起来看看它有多神奇吧!
给微信好友发信息
给微信好友朋友圈点赞回复
AutoGLM并不仅限于简单的应用场景,它的目标是“做你在手机上能做的所有事情”。这意味着它可以帮你做任何你想做的手机操作——
从淘宝购物 清空你的购物车
帮你点外卖,而且还可以自己选规格,比如咖啡的大中小杯、甜度、冰的还是热的等
帮你订酒店,而且还能筛选日期、位置、酒店价位、床型等各种复杂选项
目前,AutoGLM Web已经通过「智谱清言」插件对外发布,可以根据用户指令在网站上自动完成高级检索、总结与内容生成。手机端AutoGLM现已开启内测,暂时仅支持安卓系统。欢迎大家扫码申请体验。