淘金 | 木几萌、三只羊、AI 雷军：一个声音大模型团队冲破混沌的心路历程

文摘科技 2024-10-16 14:30 上海

引言：一个声音大模型，一群极具娱乐精神的用户，一些社会舆论话题，共同演绎了九月末十月初有关于声音的一场讨论热潮。除了流量和笑声，声音大模型可以给我们留下什么？

添加主理人（微信：xrvoyager）

打开你的脑洞

—————— · ——————

本文阅读时间约为 15 分钟

在我们不经意的角落，AI 已经悄悄潜入了我们指尖的屏幕，影响着我们的所见所闻，撩拨着我们的喜怒哀乐。「三只羊」在风口浪尖被曝出「财色录音」，雷军在互联网平台上「儒雅随和」……热闹过后，大家猛然发现它们都是 AI 产物，千丝万缕也同时指向一家初创公司——言域科技。

他们的产品到底有什么来头，在这个有些混沌的互联网时代为何突然成为焦点，我们对话言域科技创始人 xwdit，请他分享了近期的思考。

XR 航海家：能否简单介绍下「言域科技」团队和在做的事情？

Xwdit：我们是言域科技，主要在做的事情是为人机交互与数字创作赋予人性的温度。今天的 AI 公司都努力让产品变得越来越好用，越来越智能，但是我们相信有一个方向也同样的重要，为人工智能赋予温度，让它能给人带来更多的情绪价值，这样才能更好融入到主流大众之中。

我们为此有两个主要在做的路线，然后其中最主要的是第一个就是 Reecho 睿声，然后第二的话是 Neurune 虚言，后面给大家介绍。

XR 航海家：「三只羊」录音门风波过去了，作为被卷入事件的一方，能否从你们的视角聊一聊这件事的来龙去脉？

Xwdit：我们也比较意外，没有想到「睿声」产品是通过这样的方式出圈的。

「睿声」可以说是目前中文领域最为先进的有声创作、声音合成和语音克隆的技术平台。由我们自研的人声大模型去驱动，简单的概括它是一个 AI 声优，能够做到我们给他一段文本的话，不需要任何的人工干预，能够对这个文本进行一个比较细腻、比较深入的理解，有点像 TTS 的模式但能够基于理解给出非常细腻、真实的情感表达，包括像是哭、笑、唱歌、大叫都是能够做到对应的表现的。

当时三只羊的事情开始发酵之后，有个我们的用户就做了这个内容。最开始这个视频基本上骗过了所有人，很多专家和机构说这个声音的融合程度肯定是原生的，对他们当时的状态是一个火上浇油的效果。

再后来警方通报这个视频是通过 AI 编辑过之后，出现了很多声音说不可能有技术能够做这样的后期处理，甚至一开始有阴谋论的评论说我们是被推出来给三只羊顶包的，对我们冷嘲热讽。

但是后面合肥警方包括更高级别进行了一些技术鉴定，最后确实是证明是通过我们的工具生成的，也得到了澎湃新闻、南方都市报等媒体的报道。

XR 航海家：还有一个被媒体关注到的互联网现象「AI 雷军」也和你们相关，它的全网爆火历程是怎样的？

Xwdit：「AI 雷军」主要是我们传统认知上的这么一群浓度非常高的 C 端用户组成的，他们使用 AI 类工具去进行娱乐化创作的意愿也是非常高的，不然也做不到这种全网爆火的程度。

雷军是很多 B 站创作者做「鬼畜」内容的素材，雷总自己也很亲民，甚至有时候雷总和小米自己也会玩梗，所以全网不管是创作者还是观众，对恶搞雷军的接受程度其实是算高的，在各种平台上有特别多他的语音素材。

刚好九十月份有一批新游戏上线或者回归、老游戏搞活动，就有一些用户拿这些素材开始做 AI 的尝试，结果产生了裂变，导致涌入的热度把相关的声音角色顶到了社区相对靠前的位置。说白了还是借东风，正好碰上了这些游戏推广的一波流量，然后创作者很有才把它发展成一个固定的格式，吸引了更多的用户来参与，所以最后有这么一个爆火的效果。

XR 航海家：我们被「AI 雷军」刷屏看了一些，声音表现力是很强很生动的，这个效果好像以前不常见到，睿声产品是如何去做优化的？

Xwdit：说到最根本上，都是由我们自己研发的声音大模型驱动，它采用的是类似于 GPT 或者 Sora 的思想。我们跟 Sora 起步实验是差不多的，采用自回归的架构。GPT 基于文本去推导文本，我们把 GPT 的这种思想运用在了生成音频，让他拥有一个更类似人的思考模式，让模型自己完全控制音频中的每一个细节，模型直接去输出音频，不像传统模式通过冗长的嵌套流程生成出来不够自然的声音。

除了架构上的领先之外，我们主要的工作优势是在前期数据管道方面。我们也有一个非常创新的全自动数据采集、清洗、标注、训练的能力。我们相当于能建立一个自动化的管道，不断在互联网上去收集各种数据，尽可能保留它高质量的同时保留副语言信息，像是一些语气信息的数据集，不间断微调我们的模型。所以我们的模型是属于每天都在迭代小的新版本的状态，至今为止我们也积累了有数百万的音频数据。

所以你会看到，我们的睿声在中文本土化表现上面，可以做到目前同类产品最领先的程度，像是雷总这种口音的表现，都能够做到非常惟妙惟肖、抑扬顿挫的水平。

我们团队最开始也是做一些偏大众化，或者说偏一些娱乐化方向的，所以我们会知道大众用这一类的产品更想做什么。所以我们在一开始就不是力大飞砖、数据无脑往里堆、学的东西越多表现越好的思路，我们一直都不是采用这样的思想。

XR 航海家：这种娱乐化的嗅觉是如何培养的呢？

Xwdit：这要提到我们之前做的「木几萌」，也是我们第二块业务「虚言」的雏形。

木几萌可以说是世界上首个中文 AI 原生的虚拟 IP 形象，在刚上线的一两个月之内因为它非常拟人的表现，引发了全网的现象级传播，包括像是冲上了百度贴吧热搜第六，然后像是 B 站日榜 TOP 9，最高的时候日涨粉差不多两万左右的水平，至今为止不管是知名度还是效果，仍然是在中文竞品里排名第一的程度。

它有点小出名的原因，是因为比起那种 AI 味或者说助理味，她更像是网友在和真人去天天 battle、抽象聊天的感觉，能够做到非常接地气的拟人效果。后面我就在这个基础的对话功能上不断加功能模块，比如自主根据直播弹幕的情况去做表情等等，这种表现和她的人设深度整合，实测下来低延迟效果也很好，能够适应直播场景。

木几萌的诞生源于我业余时间的一些小尝试，自己手搓了木几萌相关的技术框架、模型。我之前算是一个小有名气的 00 后独立技术狗，从小学就开始接触计算机，家里就算我把它玩坏了也是让我自己摸索；中学阶段参加各种开发比赛，大学也是在巴黎念的计算机，相对有一个比较宽松的环境，允许我自己尝试在学校以外的环境学习和接触。

当我们真的创业之后，我们想能不能把她发展成一个完整的技术产品，打包成一个先进的人工智能娱乐化交互技术，由 AI 深度控制自己的虚拟形象，在一个 3D 场景中自主联动交互，包括控制形象表情动作、做一些场景互动，比如说画画、看电视、拿水杯各种，同时给 AI 赋予一个长期记忆和时间感知的能力。

最核心的是我们的本土化超拟人自然语言互动能力，这个是由我们自己训练的角色扮演类 LLM 去驱动，能够做到一个多模态的效果，能够做到像真人主播一边看视频一边给大家聊天，或者解说视频和游戏，然后根据游戏进度或者视频内容互动。它还有个性的自我决策，包括自然语言 agent 的能力，我们传统 agent 是纯基于逻辑拆解的，这一个任务需要先做这个再做那个；但我们就深度去整合她人物的个性，她会像真人一样，不开心的时候故意别扭或者搞怪，把这个事做得比较搞笑。

XR 航海家：虽然病毒式传播的确是一部分网友喜闻乐见的形式，但也不免带来一些杂音和困扰，在这几次传播之后，你们怎么考量风险？

Xwdit：这次事件确实还是暴露出来我们的一些不足之处，我们本身属于丙方，说白了我们是属于工具方，我们的内容都是由用户自行上传和传播，它的处理模式和逻辑其实比较像 UGC 工具。我们还没有拿到人工智能深度合成算法备案，是因为不满足它公司成立时间须超过一年的要求，但是产品自始至终都是朝着合规的方向去前进的，我们在这几次也非常愿意配合任何开展工作。

反过来说，我们对很多公共领域的传播路径是没有办法控制的，那个是造成影响的主要过程。如果说三只羊、AI 雷军这样的案例最后被问责，最大的问题可能还是在传播平台这。现在平台都让用户自己声明「内容由 AI 生成」，今后也许可以通过识别来做这件事情，我们也愿意跟社区平台在这个事情上交流合作。

XR 航海家：这波流量有没有让公司赚到钱？

Xwdit：我们过去这半个月可能是市场上增长速率最快的 AI 产品，实际上我们 8 月份才正式开始运营，花一个月时间找了种子用户，到了最近在不去做任何流量投放的情况下就迅速翻了三番，现在每天还是保持非常平稳的增长。整体的衍生内容量传播应该是过亿的。

收入方面，我们也已经和很多大家耳熟能详的应用开始合作了，比如 Keep 上面很多这种健身课程，在使用我们的技术优化以前的动作指导声音。

XR 航海家：我们今年看到了包括 Suno、Viggle 在内的病毒式传播案例，声音这种模态的传播有什么特点？

Xwdit：相较于更丰富的模态来说，别人知道你声音可能更有难度，我们包括 Suno 的作品还是更多曝光于短视频平台上。目前我们也在探索传播途径，可能会去创作激励，会占领评论区，会去做好玩的教程，占据注意力很重要。

XR 航海家：接下这波流量之后，团队下一步想要探索什么方向？

Xwdit：我们并不拘泥于人声，在空间音频方面，我们目前在研发全球首个复杂场景图生音效大模型。现在开源领域或者学术界研究做到的都是比较简单的，给一个文本就生成一个单一元素的声音，我们的音效模型能够实现更复杂立体的音效、更高质量的效果。它基本可以深度理解它图片里边的内容，以图片生成一套时序去脑补后头 30 秒会发生什么，然后以非常多层级、非常高细腻度的这种声音来表现。

迈出这一步的同时，我们就能够为声音增加可编辑性，打造出全能、全场景的声音模型。现在 AI 人声会穿帮，因为它太干净了，但真实世界会有拾音远近、环境音嘈杂等等真实的影响因素。我们会让这个声音听起来就像真实世界一样，能够把音效、音乐全部都混合在里面。声音世界的完全体远不止我们现在所体验到的这样，我们相信空间音频的潜力要大得多，这也是我们向未来世界进军的一个切入点。

XR 航海家：你们现在觉得声音这个赛道怎么样，跟视频比起来天花板偏低吗？

Xwdit：我们之前跟一些朋友交流，他确实会担心声音的天花板。但我们觉得，首先声音赛道当然会单独存在，因为有声内容创作需求会一直存在，目前移动互联网生态中声音也占据很大一块，它始终会占据一部分注意力，覆盖和视频需求不完全相同的用户；其次正如前面所说的，我们只是以声音作为我们的切入点，再以这个机会来慢慢结合搭建，这是我们的一个整体路线。

我们本身不认为声音它其实是天花板那么低的东西，很多人对声音的想象力停在 TTS 这种场景上，所以他们可能自然而然觉得这东西的感觉是 2B 的生产力的一些东西，可能会觉得有点无趣；但是我们有能力把它做得对，2C 也挺有吸引力的，未来还接上空间音频，所以我们自己其实不认为天花板低。

XR 航海家：你们的下一个产品，会是一个模型，还是一个应用？

Xwdit：我们觉得可能是一个社区化的产品，社区可能会是 AI 中非常重要的因素，我们提供最好的模型和最好的工具，然后在这个基础上去做社区，我们认为社区很重要。我创业也是慢慢一路演变过来，最开始是业余兴趣爱好做「木几萌」，现在团队很多人也是因为木几萌加入的，类似于网络上一个兴趣社团，以这个为目的慢慢聚集在一起，然后发展成现在这个样子。这个过程给我的启示是，把志同道合的人聚在一起是最重要的。

但是形态是不是传统的社区，我们觉得未必，让它自然生长就可以了。

—————— · ——————

你可能还想看

—————— · ——————

http://mp.weixin.qq.com/s?__biz=MzI3MTI3ODE0MQ==&mid=2247488722&idx=1&sn=50f4ad9763894b26cb46a0c23bf3287e

XR航海家

见证 XR 发展，立足科技前沿，解密未来生活。我们做你 XR 冒险旅程上的哥伦布，为你展开一代人的新大陆。

冰山 | 中国志怪和武侠才刚开始剑指世界：《暗影火炬城》核心成员带队研发 ARPG 新作

淘金 | 木几萌、三只羊、AI 雷军：一个声音大模型团队冲破混沌的心路历程

冲浪 | State of AI 2024 长文报告发布，人工智能发展之路走到了哪里？

冲浪 | Meta 再放 AI 硬件大招，新一代智能眼镜Orion 原型机公布，秀波肌肉启发未来

冰山 | 在 XR 里做 Avatar 是注定失败的一步？创业思想实验室 #01：虚实之间 Allen

淘金 | 粤港澳天马科技：AI 时代硬件未来，气味是启示沉浸式体验的最后一公里

冰山 | 微软游戏总裁 Phil Spencer：我为何错过《命运》

冰山 | 3 万字全网最深度复盘整理，游戏科学和《黑神话：悟空》的天命之旅

裸泳 | 《虚环》是划时代产品还是镜花水月？

淘金 | 最成功的立体拼图 VR 游戏《方块主义》开发者，想让你在家里爽玩 MR 激光闯关

淘金 | 16 个要点，看懂独立游戏的成功之道

冰山 | 「元宇宙」概念首席旗手 Matthew Ball：新瓶装旧酒没关系，我们在指向确定性彼岸的道路上狂奔

冰山 | 游戏巨浪下的暗礁：2024 年电子游戏行业的兴衰启示录

Z Combinator｜硅基流动成为合作伙伴，领先的AI Infra平台帮助开发者实现真正 “Token 自由”

淘金 | 从好莱坞创意到外科手术室、汽车驾驶舱，Territory Studio 怎么抓住 XR 商业新机会？

冰山 | XBOX 和动视暴雪的极限在哪里？Phil Spencer 要跨越科技娱乐的界限，展望游戏的新未来

淘金 | XR，大的真的要来了……吗？（上）

Z Combinator｜Aha Lab成为合作伙伴，用AI加速00后创业者全球化增长

冲浪 | Vision Pro 玩家玩啥呢 #10：换脸哈利波特；变身蜘蛛侠；箱庭式新游上线

Z Combinator｜MiniMax 成为合作伙伴，用 AI 成就 00 后无限想象力

冰山 | 位形空间：优质 XR 内容在哪里？2024 上海国际电影节回顾（上篇）：VR 篇

Z Combinator｜飞书成为合作伙伴，全生态赋能 00 后超级个体

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉