作者|王世昕
编辑|王博
如果给你一次与十年后自己对话的机会,你会想问些什么?
在火山引擎冬季Force原动力大会的现场,你就能获得这样一个机会:只需站在电话前,按下按钮,对着话筒发问,然后再按下按钮结束录音,等待几秒钟,你面前的电话就会响起,话筒那头便将传来你十年后的声音,这个“十年后的你”将亲自回答你刚刚提出的问题,并与你展开一场时空对话。
实现这一科幻场景的不是时光机,而是豆包语音大模型。2024年12月18日,火山引擎冬季Force原动力大会AI应用专场上,字节跳动语音产研负责人叶顺平详细介绍了豆包语音交互的全新能力,其中的大模型声音复刻技术,正是支撑“跨时空对话”玩法的核心技术。通过豆包语音大模型的超强语音复刻能力,通过一句语音输入,大模型就能够快速、高质量复现你的音色与说话方式,同时还会在声音中加上一些“沧桑感”,一个十年后的“你”就这样在模型中诞生了。仅仅几个月时间里,国产模型就已经可以实现如此趣味的玩法,这不禁让我们对于AI应用有了更多的遐想。对于模型厂商们来说,从“卷模型”到“卷应用”的重心转变正在切实的发生着。随着大模型能力的显著提升,AI原生应用在特定垂直领域的落地日益增多,类似于移动互联网时代App的迅猛发展,大模型的竞争也开始向应用层面延伸,特别是在互动娱乐、营销服务等面向消费者的C端场景中,AI正在引发一场变革,这对模型的能力提出了新的要求。与“百模大战”时期不同,模型发展的逻辑已经在发生变化。对于主流厂商而言,提升模型能力依然是核心任务,但重点不再是单纯的规模扩张或参数竞争,而是将模型真正融入到实际应用场景中,并在实际应用中不断优化和提升模型的性能。在2024年火山引擎冬季Force原动力大会上,「甲子光年」也察觉到了行业正在发生的变化。顺应市场趋势,火山引擎已经开始布局AI应用领域,并持续围绕具体应用场景提升其系列模型的能力,而豆包语音大模型正是最佳案例之一。1.做最会“交流”的产品,目标:语音模型No.1
在2024火山引擎冬季Force原动力大会上,豆包语音大模型无疑是重头戏之一。业界普遍认为,语音交互是AI模型实现落地的关键入口。2024年5月,OpenAI推出的端到端语音交互模型GPT4o,以其卓越的语音交互能力在消费者端引起了广泛的讨论,这标志着语音交互已成为继文本对话之后,AI模型与应用之间最重要的人机交互模式之一。另一方面,实现实时语音交互也是AI应用生态的真实需求。在应用方面,语音模型的落地场景非常多,需求也是真实存在,除了比较成熟的AI助手与客服场景,有声书、虚拟数字人、在线翻译,以及无障碍辅助等场景均需要语音功能的调用,以火山引擎背靠字节系生态为例,抖音、飞书、番茄小说、剪映等产品的真实业务也需要更好的声音模型来满足需求。于是豆包语音大模型在整个2024年实现了飞速进化。
之所以“死磕”语音交互,归根结底还是出于AI应用矩阵的需要。在应用方面,语音模型的落地场景非常多,需求也是真实存在,除了比较成熟的AI助手与客服场景,有声书、虚拟数字人、在线翻译,以及无障碍辅助等场景均需要语音功能的调用,而在字节系生态中,抖音、飞书、番茄小说、剪映等产品的真实业务也需要更好的声音模型来满足需求。叶顺平介绍,字节系应用内部有超过50个语音相关的业务场景,火山引擎必须拥有一个强悍的语音大模型,同时这些真实的业务场景也将保证语音大模型将在千锤百炼中快速成长。“我们语音团队的使命就是,通过多模态的语音技术,让内容生产、语音交互变得更加简单、沉浸、多元化。”叶顺平说,于是,豆包语音大模型在短短几个月内开始飞速进化。字节跳动语音团队将语音大模型分为三大部分:语音合成、语音识别,与声音复刻。简单来说就是解决大模型在语音输入、输出、学习三大环节的问题。针对“输入”这一环节,这一次的豆包语音识别模型在识别准确率方面,在多个公开测试集中,与国内公开发布的语音识别大模型相比,豆包语音识别的错误率降低了 10%-40%;在语音理解方面,其可以利用一系列上下文信息进行推理,能带来超过 15% 的召回率提升;在场景上,保持高准确率的同时,豆包语音识别支持一个模型识别普通话和多种中国方言,包括上海话、闽南语,四川、陕西、粤语等,可以真正做到对国内主流方言的精准识别。这意味着,豆包语音模型可以精准识别大多数的中文语言内容,同时也对专有名词、上下文等内容有了更深层次的理解,大模型逐渐被赋予了“更聪明”的识别能力。
在难度最大的语音合成方面,全新的豆包语音合成模型能够根据上下文,智能预测文本的情绪、语调等信息,并生成超自然、高保真、个性化的语音,以满足不同用户的个性化需求。相较于传统语音合成技术,豆包语音合成大模型能输出在自然度、音质、韵律、气口、情感、语气词表达等方面均有突破。
以难度较大的“情绪”合成为例,相比以往通过人工录制多种情绪音色的方式,豆包语音合成可以通过生成文本直接合成不同的情绪,用叶顺平的话来说,就是越来越像“真人”。而大模型还能使用260款风格音色,用户可以任意选择自己喜爱的声音,真正做到即选即用。还有就是开篇提到的豆包声音复刻技术。用户在开放环境中,只需录制5s数据,即可即时完成对用户音色、说话风格、口音和声学环境音的复刻。同时由于大模型本身具有幻想的特征,体现在效果上即针对表现力较强/韵律起伏大的音色同一句文本多次合成可能效果会不一样,结合多语种复刻与低成本的调优,可以让用户根据使用场景更加灵活的使用大模型的复刻能力。
从识别,到合成、复刻,豆包语音大模型正在建立一个全新的模型能力矩阵,让人机交流真正实现超自然、低时延的效果,从而让用户拥有更沉浸式的体验,这也让语音模型能力可以真正应用于更多元的场景之中。叶顺平在演讲中,多次介绍了语音大模型的内部实战案例,对于模型“落地”的重视,已经刻进了火山引擎产品革新的基因里。2.模型能力拆解,技术的最终目标仍是需求
拆解字节系模型产品与AI应用的极速发展可以发现,一方面可以将其归功于字节跳动业务生态带来的天然优势;另一方面,这种极速发展与火山引擎模型技术升级的策略强相关:尽管AI时代信奉的是Scaling law与智能涌现,但移动互联网时代的App极速迭代模式仍在发挥着作用:用户在哪些最主流的垂直场景存在应用场景,就针对这些场景做针对性的模型能力升级。回到语音模型的竞争中,豆包语音大模型近期获得了信通院语音大模型评估与中文原生语音合成测评基准(SuperCLUE-TTS)的双重认证,豆包语音模型的综合能力被信通院评选为首家「引领级」语音大模型,同时也拿下了SuperCLUE-TTS中文原生「语音合成」测评基准榜单与声音复刻榜单的冠军。从技术角度来说,两大权威评测的结果无疑认证了豆包语音大模型的模型能力,在中文原生领域,豆包确实已经处于领先地位。值得关注的是,信通院基于《语音大模型技术能力要求》对于豆包的评价:首家引领级。在AI应用专场上,中国信通院云计算与大数据研究所副主任董恩然也现身现场,为观众解析了信通院的评测标准——什么是真正好的语音大模型。在信通院看来,语音大模型的评测主要包括以四大核心功能为主要评测标准的技术能力板块,以及语音模型使用过程中涉及到十方面的服务成熟度板块。“能听、会说、够懂、好用。”董恩然这样概括评测标准,技术能力与相关参数的拔尖是核心,但代表着“好用”的服务成熟度也同样重要。最强技术与应用场景的深度结合造就了「引领级」的豆包语音大模型。以语音合成为例,这一次之所以能够实现超自然的合成效果,是因为豆包语音合成模型使用了最新的Seed-TTS模型架构,通过语音信号token化、自回归模型生成语音特征、扩散模型生成语音信号等一系列技术,致使语音合成实现高稳定性,与更高的合成质量。之所以在超自然、高稳定方面下此苦功,正是结合了聊天陪伴、音频生成、数字人播报、语音客服等场景面临的真实效果问题,对于这些场景来说,输出的质量、稳定性与体验直接挂钩,所以豆包语音合成做了针对性升级。以这次专场介绍的营销服场景为例。在语言模型+语音模型+视觉模型的加持下,智能客服已经可以实现更智能的理解与输出能力,但针对语音输出问题,高度拟人化、克服幻觉的需求真实存在,因此语音合成自然而然需要走向更具真人特征的方向,以满足高语音输出的需求。而豆包语音合成模型的超自然音色定制功能,则是深度洞察了C端用户与企业用户的需求,目前虚拟角色、互动娱乐已经成为AI应用的主流场景,该功能正是通过大模型的超强合成能力为语音内容生成解锁生产力,真正释放声音IP的更多可能,同时依托火山引擎的全定制托管模式,让模型能力低门槛、高效能的赋能客户。语音识别模型的升级就更为实际,直指传统语音识别面临的精准度问题与复杂场景难识别的问题。通过分阶段的大规模训练和 LLM 中上下文感知功能,豆包语音识别能够满足互动娱乐、客户服务、会议等各类应用场景下,对ASR的需求转而要适应不同的口音、语言、领域知识、环境干扰等,实现超高识别率与多方言、语种识别能力。语音识别模型不仅能推动AI应用进一步与用户进行交互,更能为会议记录、语音输入、字幕转写等真实场景提升效率。语音模型能力的综合提升,必将带来新的应用需求。以字节跳动近期推出智能AI耳机Ola friend为例,高可用与高识别率加上高质量的多轮对话,让AI的可用性大大提高,“内置”在耳机里的AI朋友,或许可能成为未来推动AI硬件广泛应用的驱动力之一。可以注意到的是,这些全新上线的功能,都已经经历了字节跳动内部50+业务的“千锤百炼”,是真正被验证过后的“实战大模型”。业务打磨除了能够帮助模型找寻应用真实落地方向之外,这样的实践也能确保模型走向产品化,在投入市场后真正做到极速落地。叶顺平也强调,豆包语音大模型也将不断进化,在不远的未来实现端到端的超自然语音交互。可以预想的是,这必将再度革新用户体验,豆包语音大模型也将开拓更广阔的应用场景。3.多模态进发,建立AI应用创新驱动力
豆包语音大模型的发展历程是一个窗口,对于火山引擎来说,模型能力与AI应用之间的相互影响推动着大模型的演进。而换一个角度,我们则能看到更具野心的一面:火山引擎仍旧沿袭了字节跳动的高效率研发模式来做模型产品,同时也在进行大而全的布局。在整个冬季Force原动力大会上,从基座语言模型到语音模型、视觉模型,再到应用开发平台,火山引擎把目前可以“拿得出手”的消费级大模型产品尽数掏出,其广度几乎覆盖了AI应用的所有领域。对于火山引擎来说,模型创新的规模就等于应用创新的规模,他们并不满足于某几个市场,而是真正要建立起一个属于字节跳动的AI应用生态。而多模态大模型的发展无疑将是建构应用生态的重要基底。12 月 19 日,智源研究院发布了FlagEval「百模」评测结果,在国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测中,豆包语言大模型在中文语言模型方面斩获榜首,并在视觉语言、文生图的比拼中位居前列。这一次全新的语音大模型也再次证明了火山引擎在多模态方面的进展。更重要的是,在深度结合字节内部业务之后,多模态模型正在推动越来越多创新应用形态与趣味玩法的诞生。在大会的主论坛环节,一个豆包语音大模型的“伴生模型”引起了我们的注意,它就是豆包音乐模型。对于抖音、剪映、汽水音乐等字节系应用,音乐内容是需求量庞大的内容之一,同时也是大量C端用户在原创、二创的内容。基于这一洞察,全新的豆包音乐模型应运而生,其已经可以完成包括前奏、主歌、副歌、间奏、过渡段等完整的3分钟全曲创作,同时可以针对歌词进行局部修改,并能在原有旋律的节奏框架内进行适配。
更难得的是,这种生成更具连贯性,通过对旋律、节奏、和声等信息的合理应用,音乐模型的创作可以使全曲在风格、情感和音乐逻辑上保持一致。
在大模型的推动下,我们的灵感可以更直接有效的被呈现在音乐创作上,结合其他多模态模型能力,全新的玩法与应用也被创作出来在VIVO全新OriginOS 5系统中,相册的“时光剪影”功能就深度结合了豆包音乐模型能力,它可以基于图片,让豆包音乐模型根据用户提供的素材进行AI词曲创作,同时也提供版权音乐、AI纯音乐等多种音乐选择,为用户生成独一无二的个性化大片。
尽管这种玩法目前看来仍以“有趣”为主,但可以预想的是,在音乐教育、广告营销等领域,这一模型能力的应用也将进一步提升内容创作的效率,从而解放生产力,让从业者可以把更多精力放在创意开发上,提升营销内容的质量。
而在“有用”这一点上,火山引擎的视觉模型走在更前列。在突破了文生图领域存在的生成内容不精准、风格不连贯等问题后,火山引擎已经找寻到了目前行业真正需求的应用场景:专业图像编辑。此前对于大多数的文生图模型来说,图像编辑的任务关键在于取得「维持原始图像」和「生成新图像」之间的最优平衡,而这一次,豆包文生图模型的升级是基于文生图模型零样本稳定跟随用户需求编辑图片,同时增强了响应能力和保持能力。提出SeedEdit框架,不引入新的参数将图像生成扩散模型转换为图像编辑模型,加上一键海报等功能,真正让文生图实现“产品化”。
豆包不仅要为图像生成提供天马行空的想象,更要让生成更可控,更专业,通过高精度的指令理解,与高质量的编辑效果,让高效率的创作与创新成为常态。目前,模型也已经在智能创作云、炉米Lumi平台等AI应用中开始了落地实践,无论是营销服场景,还是专业设计平台,AIGC也将发挥全新的作用。
正如董恩然的演讲中所提到的,我们正见证着模型技术从单一的技术价值向更广泛的综合价值转变,技术进步固然关键,但真正的创新往往源于解决实际问题的过程。将创新的AI技术应用于现实世界的挑战,是衡量模型能力发展的核心标准,这一点也提醒我们,在AI应用领域,技术突破与实际场景的实践相辅相成。而火山引擎也秉持着这一策略不断前进。根据IDC发布的数据,火山引擎在生成式AI IaaS(GenAI IaaS)领域市场份额位居第二;在AI应用市场,豆包等字节系AI应用也势头正猛,牢牢地占据着榜单的前列位置。这或许就是火山引擎不断强调大模型从“有趣”转向“有用”的深层原因。扎根场景,驱动创新,遵循着这一路径,火山引擎也正在谋求建立完整的产品生态。AI应用或许将成为大模型进化的下一个推动力,对于All in AI的企业们来说,这更是一个难得的机会:迅速占领可见的垂直市场,找寻自己的生态位,或许才是竞争的关键。