豆包实时语音大模型上线即开放！情商智商双高

科技 2025-01-20 19:30 重庆

豆包实时语音大模型于今日正式推出，并在豆包 APP 全量开放，将豆包 APP 升级至 7.2.0 版本即可体验。

豆包实时语音大模型，是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。

根据外部用户真实反馈，该模型整体满意度较 GPT-4o 有明显优势，特别是语音语气自然度和情绪饱满度远高于后者。团队认为，该模型的推出具备里程碑式意义，不仅贴合中国用户实际需求，且发布即上线，有能力直接服务亿万用户，而非停留于演示 Demo 层面。

本文将重点介绍模型技术实现思路、特性与优势及评测结果。

技术展示页：https://team.doubao.com/realtime_voice

今天，豆包 APP 上线全新端到端语音能力，面向所有用户全量开放！

其技术能力如何？戳下方视频，抢先了解。

端到端语音能力加持下，豆包不仅是春节探亲欢聚的神队友，还是献唱《恭喜发财》的高情商歌手：

注：可识别“恭喜发财”歌名，并演唱出来。

更是陪你唠嗑，操着东北味儿，模仿“白云黑土”的小品达人：

注：高情商回应用户呼唤，并能准确模仿经典文艺作品。

这些能力背后，是豆包实时语音大模型。

该模型是一个真正意义上的端到端语音系统，主要面向中文语境和场景（可进行英语对话，暂不支持多语种）。依托于语音和语义联合建模，豆包实时语音大模型拥有丰富表现力和极大拓展潜力，呈现出接近真人的语音表达水准，在语音指令控制的泛化理解和演绎生成方面，显著突破原有边界，且不止停留于 Demo 展示层面，可直接服务广大用户。

在外部真实众测中，模型整体满意度较 GPT-4o 有明显优势，语音语气自然度和情绪饱满度远高于后者。

1. 突破真人级语音对话能力的限制

真人级语音对话，能提供更为亲和的交互体验和情感价值，是人类迈向 AGI（通用人工智能）的关键里程碑。

在过去，传统语音对话任务系统一般采用级联模式——通过 ASR ，将用户输入语音转写成文本，再送入 LLM 生成对话文本，最后，依靠 TTS 转成语音输出。

此类系统存在多个缺陷，阻碍了真人级别语音对话交互的实现。例如：对用户情绪及语音中各种副语言信息理解有局限、模型生成语音情绪存在上限、无法遵循语音控制指令、无法实现超低延迟等。

除却固有方法的局限，模型对话自然度、有用性及安全性有时此消彼长，相互矛盾。如何找到平衡，促使——模型表现力全面突破同时，保持模型的高智商表现，也成为一大问题。

伴随近年来大模型发展，模型架构创新与 Scaling 理念彼此交织，为瓶颈突破带来可能，加之团队过往技术认知的不断积累，构建语音理解和生成一体化模型，真正实现端到端语音对话，由此成为可能。

迎着技术浪潮，团队希望——构建真正可用的端到端语音系统，服务好亿万用户，同时，重新定义未来人机间的交互方式，并用技术给 AI 带来“灵魂”，实现人机之间的情感链接。

为此，团队在研发中尽最大努力，谋求模型交付体验平衡，在保障安全性的基础上，确保其既具备强大的理解和逻辑能力，又能联网回答时效性问题，同时，拥有前所未有的语音高表现力、控制力和优秀的情绪承接能力。此外，模型还需要在实时交互上具备超低延时和流畅打断特性。

具体实现方面，团队研发出了一套端到端框架，深度融合语音与文本模态。

该框架面向语音生成和理解进行统一建模，最终实现多模态输入和输出效果。在预训练（Pretrain）阶段，团队对各模态交织数据进行深入训练，精准捕捉并高效压缩海量语音信息，通过 Scaling ，最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段，团队使用了高质量数据与RL算法，进一步提供模型高情商对话能力与安全性，并在“智商”与“情商”之间寻求平衡。

2. 智商与情商双双在线，赋予 AI 对话“真人感”

得益于上述工作，预训练模型具备了丰富多样输入输出的可能性，涵盖 S2S（语音到语音）、S2T（语音到文本）、T2S（文本到语音）、T2T（文本到文本）等多种模式。

具体特征表现在如下方面：

拟人化的情感承接

目前，大多数人工智能仅停留在功能性层面，以响应和服从人类命令为主要交互方式。但人类更渴望拥有像电影《钢铁侠》中贾维斯、《Her》中 Samantha 那样的伙伴，它们能够深刻理解人类的情感、需求与想法，能够与人类产生共情，给予温暖且真挚的陪伴。

因此，我们将情感表现力、情感理解、情感承接以及拟人化的语音表达，确立为整个研究过程中最为核心的关键目标，并在不同阶段进行如下工作：

数据收集：精心筛选并整理了大量包含丰富情感的语音数据，涵盖各种场景与情绪状态，为模型训练提供充足且优质素材。

预训练：使用大量各模态交织数据深度训练，并专门设计算法和优化策略，促使模型能精准捕捉和学习语音中的情感特征。

后训练：进一步通过真实与高质量合成的语音对话数据优化模型，使其实现高情商共情式对话。

目前，我们已取得阶段性成果。举例来说，当用户表现出不开心时，模型会以安慰语气说出暖心话语，当用户情绪高涨时，模型则以快乐语气作出积极回应，而当用户开玩笑时，模型能够接住用户的内容与情绪，输出恰当表达。

注：面向亲子关系，拥有高度拟人化的共情、理解力，并具备极好的角色代入能力。

强大的声音控制和丰富的情感演绎能力

除却拟人化的情感表达，团队还希望让模型具备声音控制、角色演绎、唱歌等一系列实用又出彩能力，进一步提升用户体验。

声音控制方面，模型不仅能依照基础指令输出，还可遵循丰富的复杂指令。

注：可遵循大段复杂指令，“听到”关键词后，可迅速进入角色。

情绪控制和表现力堪比专业级演员，即便音色上的细腻调整也能拿捏到位。

注：可在喜怒哀乐之间，进行快速情绪切换。

通过学习角色语音和情感特点，模型还具备强大的讲故事能力，在对话或内容演绎中，可生动切换成不同角色/状态，配合不同情绪表达，增强交互趣味性和沉浸感。

联合建模后，模型涌现出超出预期的指令理解、声音扮演和声音控制能力。比如，目前模型部分方言和口音，主要源自于 Pretrain 阶段数据泛化，而非针对性训练。

注：不仅能编故事，而且能代入角色说话特点，呈现声情并茂。

智商与表现力之间的平衡

豆包实时语音大模型的语音智商，体现在模型在用户语音输入阶段，对各维度信息进行深度理解，输出信息具备有用性与真实性。同时，输出语音表现力高度逼近真人，包括类人的副语言特征（如语气词、停顿思考等）。

为实现该能力，我们在数据层面和后训练算法上，确保多模态语音对话数据兼具语义正确性与表现力的自然性。同时，采用多轮数据合成方法，以生产高质量、高表现力的语音数据，实现了模型智商与表现力的平衡与统一，确保生成语音表达自然且一致。

通过定期对模型进行多维度评测，团队还会依托评测结果，及时调整训练策略和数据使用方式，确保模型在智商和表现力之间始终保持良好平衡。

此外，我们还赋予模型实时联网功能，能够根据问题，动态获取最新信息，对时效问题给到精准、及时的回应。

注：豆包能及时联网查询最新赛事信息，并能将赛事变动与火灾新闻进行关联回复。

丝滑的交互体验和超低延迟

在真人级语音对话中，丝滑顺畅的交互体验与超低延时至关重要，目前，级联系统的高延迟使实时对话连贯性不足，极大影响模型表现。

在语音生成，理解与文本大模型联合建模的框架下，我们实现了生成侧模型在更低系统时延情况下的生成准确性、自然度，同时在理解侧，该框架让模型实现了敏锐的语音打断与用户对话判停能力。

安全方面挑战与解决方案

多模态的引入，为模型安全性提出全新要求。

具体来看，当以语音作为输入，模型需要保证同一安全准则对于不同语音表述均生效。同时，当语音作为输出时，也会带来新的安全问题。此外，模型还需要——在不同场景下以恰当语气表达内容，并解决语音和文本存在多对一的关系下的安全挑战。

对于上述问题，团队非常重视。在联合建模的过程中，我们在后训练阶段，引入多种安全机制，通过对潜在非安全内容进行有效压制和过滤，降低安全风险。

当然，安全能力提升并非一蹴而就，而是一个复杂的课题，我们将在未来持续深入研究，长期投入。

3. 评测结果

评测中，团队选取数十名外部测试者，面向 270 个话题组，共收集超过 800 通中文数据。

这些测试者来自 10 个城市，其中 9 名男性，女性 18 名，年龄分布为 21-33 岁。11.11% 的测试者从未体验过豆包 APP，70.37% 为轻度用户，每周使用 1-2 天，其余粘度较高。

团队围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度进行考评。整体满意度（以 5 分为满分）方面，豆包实时语音大模型评分为 4.36，GPT-4o 为 3.18。其中，50% 的测试者对豆包实时语音大模型表现打出满分。

此外，在模型优点评测中，豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是“一听就是 AI 与否”评测中，超过 30% 的反馈表示 GPT-4o “过于 AI ”，而豆包实时语音大模型相应比例仅为 2% 以内。

由上可见，豆包实时语音大模型在智商与情商表现符合预期。尤其情商层面，模型在情感理解、情感承接以及情感表达等方面也取得显著进展，能较为准确地捕捉、回应人类情感信息。

4. 写在最后

基于以上技术突破和成熟落地表现，我们相信，豆包实时语音大模型为语音多模态技术的未来应用树立了全新标杆，为后续的研究和优化提供了坚实基础。

同时，团队也意识到，尽管模型已初步展现出探索潜力，但其能力边界仍存在诸多不确定性。比如语种方面，目前模型主要支持中文，其他语种尚未较好支持。中文范围内，模型也仅支持小部分方言和地方口音的理解和表达，仍有较大进步空间。此外，安全性课题同样需要长期投入。

在未来研究中，我们希望进一步挖掘模型潜力，通过优化算法、扩充数据以及改进训练策略等手段，逐步拓展其能力边界，提升复杂场景下的适应性和表现力。

豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式，如果你也对相关工作感兴趣，欢迎关注「豆包大模型团队」微信公众号，或点击阅读原文前往官网，了解更多信息。

点击“阅读原文”，了解更多信息！

字节跳动技术团队

字节跳动的技术实践分享

最新文章

向AI未知之境出发，字节跳动启动 Seed Edge 研究计划！

豆包实时语音大模型上线即开放！情商智商双高

字节跳动观测数据埋点标准化实践

文末有彩蛋|0基础2周速成 AI 编程，每天打卡均可抽奖赢好礼！

详解veImageX助力卓特视觉智能、高效生成设计素材

豆包MarsCode新年宠粉|参与老带新，赢索尼PS5、HHKB键盘、京东卡等惊喜好礼

半空：LLM 辅助的 Go2Rust 项目迁移

ICLR 2025 Workshop 征稿：推动基础模型的开源、开放、可复现

性能媲美裸金属，边缘场景高性能虚拟机技术揭秘

豆包MarsCode + 开源 = ？AI 助力开源社区新人成长

豆包大模型2024年的8个关键瞬间

【限时15天】每日一题刷题打卡挑战火热进行中，赢字节AI岗实习面试机会，等你来战！

ByteHouse技术详解：基于OLAP构建高性能GIS地理空间能力

课程预告 | 全网超 55W 人关注的 DIY 飞书个性签名，教你用 AI 实现！

圣诞奇妙，稀土掘金｜2024人气创作者年度榜单火热开启！

ROG：高性能 Go 实现

刷题竞技，备战春招｜「豆包 MarsCode 算法竞技赛」第三期开赛！

NDSS 2025｜Prompt泄露风险：抖音集团安全研究团队揭露多租户KV缓存共享漏洞

NeurIPS 2024 | 从单图到3D：HumanSplat 基于Gaussian Splatting实现高保真人体3D生成

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉