淘金 | 木几萌、三只羊、AI 雷军:一个声音大模型团队冲破混沌的心路历程
文摘
科技
2024-10-16 14:30
上海
引言:一个声音大模型,一群极具娱乐精神的用户,一些社会舆论话题,共同演绎了九月末十月初有关于声音的一场讨论热潮。除了流量和笑声,声音大模型可以给我们留下什么?
添加主理人(微信:xrvoyager)
打开你的脑洞
—————— · ——————
本文阅读时间约为 15 分钟
在我们不经意的角落,AI 已经悄悄潜入了我们指尖的屏幕,影响着我们的所见所闻,撩拨着我们的喜怒哀乐。「三只羊」在风口浪尖被曝出「财色录音」,雷军在互联网平台上「儒雅随和」……热闹过后,大家猛然发现它们都是 AI 产物,千丝万缕也同时指向一家初创公司——言域科技。他们的产品到底有什么来头,在这个有些混沌的互联网时代为何突然成为焦点,我们对话言域科技创始人 xwdit,请他分享了近期的思考。XR 航海家:能否简单介绍下「言域科技」团队和在做的事情?Xwdit:我们是言域科技,主要在做的事情是为人机交互与数字创作赋予人性的温度。今天的 AI 公司都努力让产品变得越来越好用,越来越智能,但是我们相信有一个方向也同样的重要,为人工智能赋予温度,让它能给人带来更多的情绪价值,这样才能更好融入到主流大众之中。我们为此有两个主要在做的路线,然后其中最主要的是第一个就是 Reecho 睿声,然后第二的话是 Neurune 虚言,后面给大家介绍。XR 航海家:「三只羊」录音门风波过去了,作为被卷入事件的一方,能否从你们的视角聊一聊这件事的来龙去脉?Xwdit:我们也比较意外,没有想到「睿声」产品是通过这样的方式出圈的。「睿声」可以说是目前中文领域最为先进的有声创作、声音合成和语音克隆的技术平台。由我们自研的人声大模型去驱动,简单的概括它是一个 AI 声优,能够做到我们给他一段文本的话,不需要任何的人工干预,能够对这个文本进行一个比较细腻、比较深入的理解,有点像 TTS 的模式但能够基于理解给出非常细腻、真实的情感表达,包括像是哭、笑、唱歌、大叫都是能够做到对应的表现的。当时三只羊的事情开始发酵之后,有个我们的用户就做了这个内容。最开始这个视频基本上骗过了所有人,很多专家和机构说这个声音的融合程度肯定是原生的,对他们当时的状态是一个火上浇油的效果。再后来警方通报这个视频是通过 AI 编辑过之后,出现了很多声音说不可能有技术能够做这样的后期处理,甚至一开始有阴谋论的评论说我们是被推出来给三只羊顶包的,对我们冷嘲热讽。但是后面合肥警方包括更高级别进行了一些技术鉴定,最后确实是证明是通过我们的工具生成的,也得到了澎湃新闻、南方都市报等媒体的报道。XR 航海家:还有一个被媒体关注到的互联网现象「AI 雷军」也和你们相关,它的全网爆火历程是怎样的?Xwdit:「AI 雷军」主要是我们传统认知上的这么一群浓度非常高的 C 端用户组成的,他们使用 AI 类工具去进行娱乐化创作的意愿也是非常高的,不然也做不到这种全网爆火的程度。雷军是很多 B 站创作者做「鬼畜」内容的素材,雷总自己也很亲民,甚至有时候雷总和小米自己也会玩梗,所以全网不管是创作者还是观众,对恶搞雷军的接受程度其实是算高的,在各种平台上有特别多他的语音素材。刚好九十月份有一批新游戏上线或者回归、老游戏搞活动,就有一些用户拿这些素材开始做 AI 的尝试,结果产生了裂变,导致涌入的热度把相关的声音角色顶到了社区相对靠前的位置。说白了还是借东风,正好碰上了这些游戏推广的一波流量,然后创作者很有才把它发展成一个固定的格式,吸引了更多的用户来参与,所以最后有这么一个爆火的效果。XR 航海家:我们被「AI 雷军」刷屏看了一些,声音表现力是很强很生动的,这个效果好像以前不常见到,睿声产品是如何去做优化的?Xwdit:说到最根本上,都是由我们自己研发的声音大模型驱动,它采用的是类似于 GPT 或者 Sora 的思想。我们跟 Sora 起步实验是差不多的,采用自回归的架构。GPT 基于文本去推导文本,我们把 GPT 的这种思想运用在了生成音频,让他拥有一个更类似人的思考模式,让模型自己完全控制音频中的每一个细节,模型直接去输出音频,不像传统模式通过冗长的嵌套流程生成出来不够自然的声音。除了架构上的领先之外,我们主要的工作优势是在前期数据管道方面。我们也有一个非常创新的全自动数据采集、清洗、标注、训练的能力。我们相当于能建立一个自动化的管道,不断在互联网上去收集各种数据,尽可能保留它高质量的同时保留副语言信息,像是一些语气信息的数据集,不间断微调我们的模型。所以我们的模型是属于每天都在迭代小的新版本的状态,至今为止我们也积累了有数百万的音频数据。所以你会看到,我们的睿声在中文本土化表现上面,可以做到目前同类产品最领先的程度,像是雷总这种口音的表现,都能够做到非常惟妙惟肖、抑扬顿挫的水平。我们团队最开始也是做一些偏大众化,或者说偏一些娱乐化方向的,所以我们会知道大众用这一类的产品更想做什么。所以我们在一开始就不是力大飞砖、数据无脑往里堆、学的东西越多表现越好的思路,我们一直都不是采用这样的思想。
Xwdit:这要提到我们之前做的「木几萌」,也是我们第二块业务「虚言」的雏形。木几萌可以说是世界上首个中文 AI 原生的虚拟 IP 形象,在刚上线的一两个月之内因为它非常拟人的表现,引发了全网的现象级传播,包括像是冲上了百度贴吧热搜第六,然后像是 B 站日榜 TOP 9,最高的时候日涨粉差不多两万左右的水平,至今为止不管是知名度还是效果,仍然是在中文竞品里排名第一的程度。它有点小出名的原因,是因为比起那种 AI 味或者说助理味,她更像是网友在和真人去天天 battle、抽象聊天的感觉,能够做到非常接地气的拟人效果。后面我就在这个基础的对话功能上不断加功能模块,比如自主根据直播弹幕的情况去做表情等等,这种表现和她的人设深度整合,实测下来低延迟效果也很好,能够适应直播场景。木几萌的诞生源于我业余时间的一些小尝试,自己手搓了木几萌相关的技术框架、模型。我之前算是一个小有名气的 00 后独立技术狗,从小学就开始接触计算机,家里就算我把它玩坏了也是让我自己摸索;中学阶段参加各种开发比赛,大学也是在巴黎念的计算机,相对有一个比较宽松的环境,允许我自己尝试在学校以外的环境学习和接触。当我们真的创业之后,我们想能不能把她发展成一个完整的技术产品,打包成一个先进的人工智能娱乐化交互技术,由 AI 深度控制自己的虚拟形象,在一个 3D 场景中自主联动交互,包括控制形象表情动作、做一些场景互动,比如说画画、看电视、拿水杯各种,同时给 AI 赋予一个长期记忆和时间感知的能力。最核心的是我们的本土化超拟人自然语言互动能力,这个是由我们自己训练的角色扮演类 LLM 去驱动,能够做到一个多模态的效果,能够做到像真人主播一边看视频一边给大家聊天,或者解说视频和游戏,然后根据游戏进度或者视频内容互动。它还有个性的自我决策,包括自然语言 agent 的能力,我们传统 agent 是纯基于逻辑拆解的,这一个任务需要先做这个再做那个;但我们就深度去整合她人物的个性,她会像真人一样,不开心的时候故意别扭或者搞怪,把这个事做得比较搞笑。XR 航海家:虽然病毒式传播的确是一部分网友喜闻乐见的形式,但也不免带来一些杂音和困扰,在这几次传播之后,你们怎么考量风险?Xwdit:这次事件确实还是暴露出来我们的一些不足之处,我们本身属于丙方,说白了我们是属于工具方,我们的内容都是由用户自行上传和传播,它的处理模式和逻辑其实比较像 UGC 工具。我们还没有拿到人工智能深度合成算法备案,是因为不满足它公司成立时间须超过一年的要求,但是产品自始至终都是朝着合规的方向去前进的,我们在这几次也非常愿意配合任何开展工作。反过来说,我们对很多公共领域的传播路径是没有办法控制的,那个是造成影响的主要过程。如果说三只羊、AI 雷军这样的案例最后被问责,最大的问题可能还是在传播平台这。现在平台都让用户自己声明「内容由 AI 生成」,今后也许可以通过识别来做这件事情,我们也愿意跟社区平台在这个事情上交流合作。Xwdit:我们过去这半个月可能是市场上增长速率最快的 AI 产品,实际上我们 8 月份才正式开始运营,花一个月时间找了种子用户,到了最近在不去做任何流量投放的情况下就迅速翻了三番,现在每天还是保持非常平稳的增长。整体的衍生内容量传播应该是过亿的。收入方面,我们也已经和很多大家耳熟能详的应用开始合作了,比如 Keep 上面很多这种健身课程,在使用我们的技术优化以前的动作指导声音。XR 航海家:我们今年看到了包括 Suno、Viggle 在内的病毒式传播案例,声音这种模态的传播有什么特点?Xwdit:相较于更丰富的模态来说,别人知道你声音可能更有难度,我们包括 Suno 的作品还是更多曝光于短视频平台上。目前我们也在探索传播途径,可能会去创作激励,会占领评论区,会去做好玩的教程,占据注意力很重要。XR 航海家:接下这波流量之后,团队下一步想要探索什么方向?Xwdit:我们并不拘泥于人声,在空间音频方面,我们目前在研发全球首个复杂场景图生音效大模型。现在开源领域或者学术界研究做到的都是比较简单的,给一个文本就生成一个单一元素的声音,我们的音效模型能够实现更复杂立体的音效、更高质量的效果。它基本可以深度理解它图片里边的内容,以图片生成一套时序去脑补后头 30 秒会发生什么,然后以非常多层级、非常高细腻度的这种声音来表现。迈出这一步的同时,我们就能够为声音增加可编辑性,打造出全能、全场景的声音模型。现在 AI 人声会穿帮,因为它太干净了,但真实世界会有拾音远近、环境音嘈杂等等真实的影响因素。我们会让这个声音听起来就像真实世界一样,能够把音效、音乐全部都混合在里面。声音世界的完全体远不止我们现在所体验到的这样,我们相信空间音频的潜力要大得多,这也是我们向未来世界进军的一个切入点。XR 航海家:你们现在觉得声音这个赛道怎么样,跟视频比起来天花板偏低吗?Xwdit:我们之前跟一些朋友交流,他确实会担心声音的天花板。但我们觉得,首先声音赛道当然会单独存在,因为有声内容创作需求会一直存在,目前移动互联网生态中声音也占据很大一块,它始终会占据一部分注意力,覆盖和视频需求不完全相同的用户;其次正如前面所说的,我们只是以声音作为我们的切入点,再以这个机会来慢慢结合搭建,这是我们的一个整体路线。我们本身不认为声音它其实是天花板那么低的东西,很多人对声音的想象力停在 TTS 这种场景上,所以他们可能自然而然觉得这东西的感觉是 2B 的生产力的一些东西,可能会觉得有点无趣;但是我们有能力把它做得对,2C 也挺有吸引力的,未来还接上空间音频,所以我们自己其实不认为天花板低。XR 航海家:你们的下一个产品,会是一个模型,还是一个应用?Xwdit:我们觉得可能是一个社区化的产品,社区可能会是 AI 中非常重要的因素,我们提供最好的模型和最好的工具,然后在这个基础上去做社区,我们认为社区很重要。我创业也是慢慢一路演变过来,最开始是业余兴趣爱好做「木几萌」,现在团队很多人也是因为木几萌加入的,类似于网络上一个兴趣社团,以这个为目的慢慢聚集在一起,然后发展成现在这个样子。这个过程给我的启示是,把志同道合的人聚在一起是最重要的。但是形态是不是传统的社区,我们觉得未必,让它自然生长就可以了。