分析师:刘雯蜀/童非
执业证书编号:S1230523020002/S1230524050005
研究助理:张致远
来源:浙商证券计算机研究团队
具体参见2025年1月20日发布的报告《豆包端到端语音功能上线,双商在线表现力极佳——大模型行业点评》,如需报告全文或数据底稿,请联系团队成员或对口销售。
事件
2025年1月20日,豆包APP 全新端到端实时语音通话功能正式上线,直接面向全体用户全量免费开放。
点评
1、豆包实时语音大模型智商与情商表现出色
在外部测试者的评测中,围绕拟人度、有用性、情商、通话稳定性、对话流畅度等维度对豆包进行测试,整体满意度(以 5 分为满分)评分为 4.36,高于GPT-4o 的 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。在“一听就是 AI 与否”评测中,超过 30% 的反馈表示 GPT-4o“过于 AI”,而豆包实时语音大模型相应比例仅为 2% 以内。
豆包实时语音大模型实现了端到端语音对话,相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳。过去传统语音对话系统任务会先将语音转化为文本,经由文本模型处理后转化为语音输出,在这一过程中,用户情绪及语气可能无法被有效识别处理。而豆包实时语音大模型具备较好的情感理解与表现能力,当用户表现出不开心时,模型会以安慰语气说出暖心话语,当用户情绪高涨时,模型则以快乐语气做出积极回应。
字节运营约 20 款 AI 应用,在对话、助手、虚拟社交、图像、视频、智能体、办公、社区、音乐、编程、教育、电商、硬件等几乎全领域都有布局。根据AI产品榜数据,2024年12月豆包MAU为7116万,环比增长18.64%。其海外版 Cici 的 MAU 达到 1133 万,位列第 26 位。虚拟角色APP猫箱MAU为688万,环比增速达50.18%。豆包实时语音大模型的推出有望进一步赋能AI产品,推动用户增长。
算力需求有望增加:端到端训练意味着无法直接使用文本模型,而需要重新开发一套模型架构,并且语音本身信息量较文本更加丰富,对模型或有更高要求。推理端,为了良好的通话体验,低延时需求对算力及通信要求更高。模型具备优秀的拟人化与表现力,有望赋能千行百业:豆包实时语音大模型双商在线、拟人程度高,有望在部分领域实现对人的替代,有望应用于AI陪伴、AI助理、AI玩具、AI眼镜、游戏、视频制作等场景。例如,AI有望用于陪伴老人儿童、可用于游戏公司为虚拟人物配音等。
建议关注标的
AI 算力相关:寒武纪、海光信息、润泽科技、光环新网、光迅股份、高澜股份、英维克、欧陆通、云赛智
联、亚康股份、中科曙光、浪潮信息;
AI 应用相关:海天瑞声、东软集团、慧博云通、视觉中国、汉得信息、中科创达。
风险提示
产品研发不及预期、市场需求不及预期、算力供给不及预期、大模型商业落地不及预期。
报告原文
法律声明及风险提示
计算机蜀你最牛
计算机行业研究公众号,
关注这一个就够了!