AI应用时代，模型能力应该如何进化？｜甲子光年

科技科技 2024-12-24 15:19 北京

AI应用将如何驱动模型创新？

作者｜王世昕‍‍‍

编辑｜王博‍‍‍‍‍‍

如果给你一次与十年后自己对话的机会，你会想问些什么？

在火山引擎冬季Force原动力大会的现场，你就能获得这样一个机会：只需站在电话前，按下按钮，对着话筒发问，然后再按下按钮结束录音，等待几秒钟，你面前的电话就会响起，话筒那头便将传来你十年后的声音，这个“十年后的你”将亲自回答你刚刚提出的问题，并与你展开一场时空对话。

实现这一科幻场景的不是时光机，而是豆包语音大模型。2024年12月18日，火山引擎冬季Force原动力大会AI应用专场上，字节跳动语音产研负责人叶顺平详细介绍了豆包语音交互的全新能力，其中的大模型声音复刻技术，正是支撑“跨时空对话”玩法的核心技术。通过豆包语音大模型的超强语音复刻能力，通过一句语音输入，大模型就能够快速、高质量复现你的音色与说话方式，同时还会在声音中加上一些“沧桑感”，一个十年后的“你”就这样在模型中诞生了。

仅仅几个月时间里，国产模型就已经可以实现如此趣味的玩法，这不禁让我们对于AI应用有了更多的遐想。

对于模型厂商们来说，从“卷模型”到“卷应用”的重心转变正在切实的发生着。随着大模型能力的显著提升，AI原生应用在特定垂直领域的落地日益增多，类似于移动互联网时代App的迅猛发展，大模型的竞争也开始向应用层面延伸，特别是在互动娱乐、营销服务等面向消费者的C端场景中，AI正在引发一场变革，这对模型的能力提出了新的要求。

与“百模大战”时期不同，模型发展的逻辑已经在发生变化。对于主流厂商而言，提升模型能力依然是核心任务，但重点不再是单纯的规模扩张或参数竞争，而是将模型真正融入到实际应用场景中，并在实际应用中不断优化和提升模型的性能。

在2024年火山引擎冬季Force原动力大会上，「甲子光年」也察觉到了行业正在发生的变化。顺应市场趋势，火山引擎已经开始布局AI应用领域，并持续围绕具体应用场景提升其系列模型的能力，而豆包语音大模型正是最佳案例之一。

1.做最会“交流”的产品，目标：语音模型No.1

在2024火山引擎冬季Force原动力大会上，豆包语音大模型无疑是重头戏之一。业界普遍认为，语音交互是AI模型实现落地的关键入口。2024年5月，OpenAI推出的端到端语音交互模型GPT4o，以其卓越的语音交互能力在消费者端引起了广泛的讨论，这标志着语音交互已成为继文本对话之后，AI模型与应用之间最重要的人机交互模式之一。

另一方面，实现实时语音交互也是AI应用生态的真实需求。在应用方面，语音模型的落地场景非常多，需求也是真实存在，除了比较成熟的AI助手与客服场景，有声书、虚拟数字人、在线翻译，以及无障碍辅助等场景均需要语音功能的调用，以火山引擎背靠字节系生态为例，抖音、飞书、番茄小说、剪映等产品的真实业务也需要更好的声音模型来满足需求。于是豆包语音大模型在整个2024年实现了飞速进化。

之所以“死磕”语音交互，归根结底还是出于AI应用矩阵的需要。在应用方面，语音模型的落地场景非常多，需求也是真实存在，除了比较成熟的AI助手与客服场景，有声书、虚拟数字人、在线翻译，以及无障碍辅助等场景均需要语音功能的调用，而在字节系生态中，抖音、飞书、番茄小说、剪映等产品的真实业务也需要更好的声音模型来满足需求。

叶顺平介绍，字节系应用内部有超过50个语音相关的业务场景，火山引擎必须拥有一个强悍的语音大模型，同时这些真实的业务场景也将保证语音大模型将在千锤百炼中快速成长。

“我们语音团队的使命就是，通过多模态的语音技术，让内容生产、语音交互变得更加简单、沉浸、多元化。”叶顺平说，于是，豆包语音大模型在短短几个月内开始飞速进化。

字节跳动语音团队将语音大模型分为三大部分：语音合成、语音识别，与声音复刻。简单来说就是解决大模型在语音输入、输出、学习三大环节的问题。

针对“输入”这一环节，这一次的豆包语音识别模型在识别准确率方面，在多个公开测试集中，与国内公开发布的语音识别大模型相比，豆包语音识别的错误率降低了 10%-40%；在语音理解方面，其可以利用一系列上下文信息进行推理，能带来超过 15% 的召回率提升；在场景上，保持高准确率的同时，豆包语音识别支持一个模型识别普通话和多种中国方言，包括上海话、闽南语，四川、陕西、粤语等，可以真正做到对国内主流方言的精准识别。

这意味着，豆包语音模型可以精准识别大多数的中文语言内容，同时也对专有名词、上下文等内容有了更深层次的理解，大模型逐渐被赋予了“更聪明”的识别能力。

在难度最大的语音合成方面，全新的豆包语音合成模型能够根据上下文，智能预测文本的情绪、语调等信息，并生成超自然、高保真、个性化的语音，以满足不同用户的个性化需求。相较于传统语音合成技术，豆包语音合成大模型能输出在自然度、音质、韵律、气口、情感、语气词表达等方面均有突破。

以难度较大的“情绪”合成为例，相比以往通过人工录制多种情绪音色的方式，豆包语音合成可以通过生成文本直接合成不同的情绪，用叶顺平的话来说，就是越来越像“真人”。而大模型还能使用260款风格音色，用户可以任意选择自己喜爱的声音，真正做到即选即用。

还有就是开篇提到的豆包声音复刻技术。用户在开放环境中，只需录制5s数据，即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。同时由于大模型本身具有幻想的特征，体现在效果上即针对表现力较强/韵律起伏大的音色同一句文本多次合成可能效果会不一样，结合多语种复刻与低成本的调优，可以让用户根据使用场景更加灵活的使用大模型的复刻能力。

从识别，到合成、复刻，豆包语音大模型正在建立一个全新的模型能力矩阵，让人机交流真正实现超自然、低时延的效果，从而让用户拥有更沉浸式的体验，这也让语音模型能力可以真正应用于更多元的场景之中。叶顺平在演讲中，多次介绍了语音大模型的内部实战案例，对于模型“落地”的重视，已经刻进了火山引擎产品革新的基因里。

2.模型能力拆解，技术的最终目标仍是需求

拆解字节系模型产品与AI应用的极速发展可以发现，一方面可以将其归功于字节跳动业务生态带来的天然优势；另一方面，这种极速发展与火山引擎模型技术升级的策略强相关：尽管AI时代信奉的是Scaling law与智能涌现，但移动互联网时代的App极速迭代模式仍在发挥着作用：用户在哪些最主流的垂直场景存在应用场景，就针对这些场景做针对性的模型能力升级。

回到语音模型的竞争中，豆包语音大模型近期获得了信通院语音大模型评估与中文原生语音合成测评基准（SuperCLUE-TTS）的双重认证，豆包语音模型的综合能力被信通院评选为首家「引领级」语音大模型，同时也拿下了SuperCLUE-TTS中文原生「语音合成」测评基准榜单与声音复刻榜单的冠军。

从技术角度来说，两大权威评测的结果无疑认证了豆包语音大模型的模型能力，在中文原生领域，豆包确实已经处于领先地位。值得关注的是，信通院基于《语音大模型技术能力要求》对于豆包的评价：首家引领级。在AI应用专场上，中国信通院云计算与大数据研究所副主任董恩然也现身现场，为观众解析了信通院的评测标准——什么是真正好的语音大模型。

在信通院看来，语音大模型的评测主要包括以四大核心功能为主要评测标准的技术能力板块，以及语音模型使用过程中涉及到十方面的服务成熟度板块。“能听、会说、够懂、好用。”董恩然这样概括评测标准，技术能力与相关参数的拔尖是核心，但代表着“好用”的服务成熟度也同样重要。

最强技术与应用场景的深度结合造就了「引领级」的豆包语音大模型。

以语音合成为例，这一次之所以能够实现超自然的合成效果，是因为豆包语音合成模型使用了最新的Seed-TTS模型架构，通过语音信号token化、自回归模型生成语音特征、扩散模型生成语音信号等一系列技术，致使语音合成实现高稳定性，与更高的合成质量。之所以在超自然、高稳定方面下此苦功，正是结合了聊天陪伴、音频生成、数字人播报、语音客服等场景面临的真实效果问题，对于这些场景来说，输出的质量、稳定性与体验直接挂钩，所以豆包语音合成做了针对性升级。

以这次专场介绍的营销服场景为例。在语言模型+语音模型+视觉模型的加持下，智能客服已经可以实现更智能的理解与输出能力，但针对语音输出问题，高度拟人化、克服幻觉的需求真实存在，因此语音合成自然而然需要走向更具真人特征的方向，以满足高语音输出的需求。

而豆包语音合成模型的超自然音色定制功能，则是深度洞察了C端用户与企业用户的需求，目前虚拟角色、互动娱乐已经成为AI应用的主流场景，该功能正是通过大模型的超强合成能力为语音内容生成解锁生产力，真正释放声音IP的更多可能，同时依托火山引擎的全定制托管模式，让模型能力低门槛、高效能的赋能客户。

语音识别模型的升级就更为实际，直指传统语音识别面临的精准度问题与复杂场景难识别的问题。通过分阶段的大规模训练和 LLM 中上下文感知功能，豆包语音识别能够满足互动娱乐、客户服务、会议等各类应用场景下，对ASR的需求转而要适应不同的口音、语言、领域知识、环境干扰等，实现超高识别率与多方言、语种识别能力。语音识别模型不仅能推动AI应用进一步与用户进行交互，更能为会议记录、语音输入、字幕转写等真实场景提升效率。

语音模型能力的综合提升，必将带来新的应用需求。以字节跳动近期推出智能AI耳机Ola friend为例，高可用与高识别率加上高质量的多轮对话，让AI的可用性大大提高，“内置”在耳机里的AI朋友，或许可能成为未来推动AI硬件广泛应用的驱动力之一。

可以注意到的是，这些全新上线的功能，都已经经历了字节跳动内部50+业务的“千锤百炼”，是真正被验证过后的“实战大模型”。业务打磨除了能够帮助模型找寻应用真实落地方向之外，这样的实践也能确保模型走向产品化，在投入市场后真正做到极速落地。

叶顺平也强调，豆包语音大模型也将不断进化，在不远的未来实现端到端的超自然语音交互。可以预想的是，这必将再度革新用户体验，豆包语音大模型也将开拓更广阔的应用场景。

3.多模态进发，建立AI应用创新驱动力

豆包语音大模型的发展历程是一个窗口，对于火山引擎来说，模型能力与AI应用之间的相互影响推动着大模型的演进。而换一个角度，我们则能看到更具野心的一面：火山引擎仍旧沿袭了字节跳动的高效率研发模式来做模型产品，同时也在进行大而全的布局。

在整个冬季Force原动力大会上，从基座语言模型到语音模型、视觉模型，再到应用开发平台，火山引擎把目前可以“拿得出手”的消费级大模型产品尽数掏出，其广度几乎覆盖了AI应用的所有领域。对于火山引擎来说，模型创新的规模就等于应用创新的规模，他们并不满足于某几个市场，而是真正要建立起一个属于字节跳动的AI应用生态。

而多模态大模型的发展无疑将是建构应用生态的重要基底。12 月 19 日，智源研究院发布了FlagEval「百模」评测结果，在国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测中，豆包语言大模型在中文语言模型方面斩获榜首，并在视觉语言、文生图的比拼中位居前列。

这一次全新的语音大模型也再次证明了火山引擎在多模态方面的进展。更重要的是，在深度结合字节内部业务之后，多模态模型正在推动越来越多创新应用形态与趣味玩法的诞生。

在大会的主论坛环节，一个豆包语音大模型的“伴生模型”引起了我们的注意，它就是豆包音乐模型。对于抖音、剪映、汽水音乐等字节系应用，音乐内容是需求量庞大的内容之一，同时也是大量C端用户在原创、二创的内容。基于这一洞察，全新的豆包音乐模型应运而生，其已经可以完成包括前奏、主歌、副歌、间奏、过渡段等完整的3分钟全曲创作，同时可以针对歌词进行局部修改，并能在原有旋律的节奏框架内进行适配。

更难得的是，这种生成更具连贯性，通过对旋律、节奏、和声等信息的合理应用，音乐模型的创作可以使全曲在风格、情感和音乐逻辑上保持一致。

在大模型的推动下，我们的灵感可以更直接有效的被呈现在音乐创作上，结合其他多模态模型能力，全新的玩法与应用也被创作出来在VIVO全新OriginOS 5系统中，相册的“时光剪影”功能就深度结合了豆包音乐模型能力，它可以基于图片，让豆包音乐模型根据用户提供的素材进行AI词曲创作，同时也提供版权音乐、AI纯音乐等多种音乐选择，为用户生成独一无二的个性化大片。

尽管这种玩法目前看来仍以“有趣”为主，但可以预想的是，在音乐教育、广告营销等领域，这一模型能力的应用也将进一步提升内容创作的效率，从而解放生产力，让从业者可以把更多精力放在创意开发上，提升营销内容的质量。

而在“有用”这一点上，火山引擎的视觉模型走在更前列。在突破了文生图领域存在的生成内容不精准、风格不连贯等问题后，火山引擎已经找寻到了目前行业真正需求的应用场景：专业图像编辑。

此前对于大多数的文生图模型来说，图像编辑的任务关键在于取得「维持原始图像」和「生成新图像」之间的最优平衡，而这一次，豆包文生图模型的升级是基于文生图模型零样本稳定跟随用户需求编辑图片，同时增强了响应能力和保持能力。提出SeedEdit框架，不引入新的参数将图像生成扩散模型转换为图像编辑模型，加上一键海报等功能，真正让文生图实现“产品化”。

豆包不仅要为图像生成提供天马行空的想象，更要让生成更可控，更专业，通过高精度的指令理解，与高质量的编辑效果，让高效率的创作与创新成为常态。目前，模型也已经在智能创作云、炉米Lumi平台等AI应用中开始了落地实践，无论是营销服场景，还是专业设计平台，AIGC也将发挥全新的作用。

正如董恩然的演讲中所提到的，我们正见证着模型技术从单一的技术价值向更广泛的综合价值转变，技术进步固然关键，但真正的创新往往源于解决实际问题的过程。将创新的AI技术应用于现实世界的挑战，是衡量模型能力发展的核心标准，这一点也提醒我们，在AI应用领域，技术突破与实际场景的实践相辅相成。

而火山引擎也秉持着这一策略不断前进。根据IDC发布的数据，火山引擎在生成式AI IaaS（GenAI IaaS）领域市场份额位居第二；在AI应用市场，豆包等字节系AI应用也势头正猛，牢牢地占据着榜单的前列位置。

这或许就是火山引擎不断强调大模型从“有趣”转向“有用”的深层原因。扎根场景，驱动创新，遵循着这一路径，火山引擎也正在谋求建立完整的产品生态。AI应用或许将成为大模型进化的下一个推动力，对于All in AI的企业们来说，这更是一个难得的机会：迅速占领可见的垂直市场，找寻自己的生态位，或许才是竞争的关键。

（封面图及文中配图来源：火山引擎）

END.

甲子光年

甲子光年是一家科技智库，包含智库、社群、企业服务版块，立足中国科技创新前沿阵地，动态跟踪头部科技企业发展和传统产业技术升级案例，推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。

最新文章

AI应用时代，模型能力应该如何进化？｜甲子光年

南阶跃、北智谱：大模型“基模双雄”格局初现｜甲子光年

神州数码副总裁李刚：大模型幻灭低谷or波动上升？｜甲子引力

分析100万条人与AI对话的背后：人类没有看一条对话｜甲子光年

AI in ALL时代，希望你来参与——甲子光年特别策划｜甲子光年

最强推理模型o3来了！OpenAI副总裁不慎透露秘密被Altman“闭麦”｜甲子光年

对话面壁智能刘知远：Densing Law是大模型能力的另一个度量衡｜甲子光年

国内首款量产AI眼镜发布，零一万物前联创担任AI合伙人｜甲子光年

如何捕捉低空经济的创新机遇与市场红利？｜甲子引力

毛绒绒的AI智能宠物，正在海外流行｜甲子光年

AI应用竞争激烈，如何留在牌桌？｜甲子引力

迎接具身智能落地应用的星辰大海｜甲子引力

万字实录：生数、智谱、宇树、智源对谈AI的共识与非共识｜甲子光年

打造耐心资本，GPLP如何更好协同？｜甲子引力

新政频出，科技投资有哪些创新的变革策略？｜甲子引力

端侧AI生态如何做？都在安谋科技的AI朋友圈里了｜甲子光年

智谱宣布完成新一轮30亿元融资，将继续投入基座大模型｜甲子光年

中国人工智能应用的标杆，都在这场大会上了｜甲子光年

极越危局：当一辆车消失天际，当一个人成了谜｜甲子光年

服务上万家企业后，美团企业版找到了企业消费管理的秘诀｜甲子光年

物流行业内卷加剧，AI如何反卷破局？｜甲子光年

中国算力行业的突围之道｜甲子引力

【榜单揭晓】 | 2024年度三大科技榜单发布，致敬科技领域一如既往的奔赴者｜甲子光年

3000+人次到场，大量行业首发内容，2024甲子引力年终盛典成功举办丨甲子引力

面壁智能线下首次公开完成数亿元融资，李大海：未来会让GPT-4o及更高水平模型上端｜甲子光年

万千流变，一如既往：2024人工智能产业30条判断｜甲子光年

生数、智谱、智源谈Sora：模型在预期之内，产品才是亮点｜甲子光年

00后耶鲁博士携产业链老兵创业，半年造出的人形机器人要量产了｜甲子光年

从“有趣”到“有用”，AI应用市场如何破局？｜甲子光年

AR百镜大战，自研芯片才是唯一的出路？｜甲子光年

寻找张勇｜甲子光年

全嘉宾阵容官宣！2024甲子引力年终盛典即将召开丨甲子引力

风暴中的杨植麟回应争议：感谢投资人，力挺张予彤｜甲子光年

全嘉宾阵容官宣！2024甲子引力年终盛典即将召开丨甲子引力

44家北大AI企业集结郑州，开启AI 3.0时代｜甲子光年

满血版o1来了！OpenAI首次将多模态能力与新型推理范式相结合｜甲子光年

大模型拯救数字人｜甲子光年

拿下首个右舵左行地区自动驾驶测试牌照，萝卜快跑开启全球化｜甲子光年

生数、智谱、宇树、智源齐聚！2024甲子引力年终盛典最新爆料丨甲子引力

盐城市30亿元“耐心资本”战略性新兴产业母基金正式起航｜甲子光年

甲小姐对话张钹：中国大模型的死与生｜甲子光年

智谱升级Agent，AI如何从Chat到Act？｜甲子光年

一条朋友圈与背后的AI格局之变｜甲子光年

大模型“炼丹”容易“修仙”难：猎户星空跨越AI应用鸿沟｜甲子光年

“赛博菩萨”袁进辉，只想做好“Token工厂”｜甲子光年

一群北大的年轻人，想要捕捉光｜甲子光年

专访可汗学院创始人：AI教育赛道，中美之间最大的区别是什么？｜甲子光年

专访群核科技黄晓煌：我们要做和Sora不同的“物理世界模拟器”｜甲子光年

AI翻译市场图鉴：谁能翻译好“霸总”和“老弟”｜甲子光年智库

登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉