对话大模型“六虎”MiniMax闫俊杰:做AI技术很奢侈,每个月看到账单都会心疼

科技   科技   2024-09-02 18:07   北京  

出品 | 搜狐科技

作者 | 梁昌均

运营编辑 | 王一晴

“技术做不好,所有东西都是问题;技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,这件事我花了两年才意识到,但偶尔还是会继续犯这样的错误。”

谈到创业近三年以来的关键时刻,MiniMax创始人&CEO闫俊杰讲述了他的数次至暗时刻里最有共性的一个感受。

MiniMax是国内AI大模型“六虎”中最早成立的一家公司,2021年底由商汤科技前副总裁闫俊杰创立。这家公司最新估值达25亿美元,同时获腾讯、阿里入股,但以往却极为低调。

8月的最后一天,MiniMax在上海举办了首届Link伙伴日活动,打破了长久的沉默。闫俊杰现场分享了创业历程,宣布推出视频模型和音乐模型,并介绍了在技术研发上的最新进展。

“大模型是一个看起来很热,但也有很多非共识的领域——到底做2B还是2C,到底做国内还是做海外,Scaling law到底能不能延续?”

闫俊杰表示,自己对技术的进步充满乐观,对用户充满乐观,对产品的迭代效率充满乐观。

他还首次面向搜狐科技等媒体回应了外界的诸多疑问,包括入局AI生成视频的考虑,以及对技术研发、市场竞争以及海外布局的看法。

闫俊杰(中)在媒体沟通会上
AI生成视频会进步非常快

商业化对大模型是考验

今年以来,AI生成视频无疑是大模型领域最卷的赛道。自OpenAI发布Sora演示视频后,字节、快手、智谱、Pika、Runway等国内外多家企业陆续推出相关产品。

MiniMax是最新的入局者,且发布即上线。闫俊杰解释称,做视频符合公司的目标,最本质的原因在于,人类社会的信息交流,大部分体现为多模态的内容,而不是文字。

“为了有非常高的用户覆盖度和使用深度,唯一的办法就是做输出动态的内容,而不是单纯基于文字。只是我们先做出来文字和声音,现在技术变得更强,把视频也做出来。”

闫俊杰坦言,做视频挺难,复杂度比文本更高,且存储要求更大,需要在算法上考虑怎么样降低复杂度,压缩率变得更高。“这花了我们很多精力,就比可灵晚了一两个月。”

同时,这需要升级底层基础设施,之前基于文本构建的基础设施,如何清洗、标注数据等,对视频都不太适用,且视频开源东西很少,很多都需要自己做,需要更多耐心。

目前,MiniMax的视频模型仅支持文生视频。闫俊杰表示,后续会在数据、算法上继续迭代,且会推出图生视频,文+图生成视频,可编辑、可控性等更多功能。

在商业化方面,不少视频生成产品都采取收费模式。对此,闫俊杰表示,在达到一个更加满意的状态之后,可能会考虑商业化。

他认为,AI生成视频这件事还只是开始,接下来的进步速度一定会变得非常快。“长期看,进步越快的东西就越好。”

这一定程度也代表了闫俊杰对大模型商业化的态度。“目前最重要的不是商业化,而是真正地让技术到达广泛可用的程度。”

他表示,当一个产品没人用,或当一个产品不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或产品做得不够好。

目前,MiniMax的商业化基本分成两个形式,一个是开放平台,服务超3万家企业用户和开发者,并有两千多家付费客户。第二是C端,尝试广告或收费变现。

MiniMax国际业务总经理盛静远在沟通中表示,2B行业真正要能赚钱是要成为行业标准,但在国内更加卷的竞争市场上,2B业务很多变成了项目制。“大模型如果纯技术输出,为每家企业进行定制,这个商业模式就转不过来。”

“今天的大模型产品形态,普通消费者没有任何忠诚度一旦收费就可以换到另外一个产品。”盛静远认为,大模型C端产品的商业模式也不成立。

她表示,MiniMax所有产品会结合技术的能力、特色,打造出能增强用户粘性的产品形态,然后才会考虑ROI和留存,等到飞轮转起来,再去进行投放,而不是像很多友商,现在就用非常多的真金白银砸进去。

“我们现在是所有中国大模型公司里面,少数几个能讲商业化变现,能讲产品跟模型驱动,甚至很有可能能在比较短的时间内实现自负盈亏及盈利的公司。”盛静远表示。

她认为,MiniMax现在处在半山腰的状态,如果做得比较成功,很快就能达到一个正向的商业循环,希望通过技术突破,产品商业化,从而再反哺技术,而不是考虑还有那些钱会来投。

“大模型的商业化,如同当年的互联网一样,会经历一个探索的过程。这可以看成是对一个行业的考验,如果能通过就能够出来,如果通不过就应该客观面对。”闫俊杰说。

做技术非常奢侈

大模型未来关键是错误率要降到个位数

在创办MiniMax前,闫俊杰已做了超过十年的AI技术研发,人脸识别和AlphaGo是那时最具代表性的应用。“这些距离人都很远,对我来说也越来越困惑,做AI到底是为了什么?”

转折发生在闫俊杰一次回老家见到外公。“他想写自己80年的一生,但不会打字,也不会进行复杂的写作。很遗憾我没法帮他来完成这件事情,那时候的AI还做不到。”

“这给了我非常大的触动,让我意识到,AI应该具备通用性,让每个人都有智能,总结来说就是 Intelligence with everyone。”闫俊杰说,这成了创业最初的想法。

随着大模型浪潮到来,MiniMax率先推出首个MoE(混合专家系统)大语言模型。目前,公司模型覆盖文本、语音、音乐、视频等领域,并推出开放平台、海螺、星野、Talkie等多款产品,不久还将发布采用新一代技术的abab7系列文本模型。

“但我们的用户还只占全球总人口的1%,准确地说是0.8%。那怎么来提升呢?我认为核心只有两点:提高用户的渗透率和使用深度。”闫俊杰称,这需要坚持科学技术是第一生产力。

他认为,大模型最重要的三个技术方向是:持续降低错误率、无限长输入和输出和多模态。这需要在模型算法上不断创新,MiniMax就曾投注公司80%的资源押注MOE。

此次活动上,MiniMax推出基于MOE+ Linear Attention(线性注意力)的新一代模型架构,其能够在单位时间内更加高效地训练海量数据,提升模型的实用性和响应速度。

相较GPT-4o,该模型处理10万token时效率可提升2-3倍;相比通用Transformer架构,该架构能大幅减少大模型训练和推理成本,如在128K的序列长度下,成本减少超90%。

“我们一直都觉得技术重要,但跟100%地认为它重要,需要一个过程。”闫俊杰表示,做技术是一件非常奢侈的事,它具有不可预测性,可能会失败。

同时,研发投入很大。“如果看一眼我们每个月的账单,还是会非常心疼。”闫俊杰说着看向了坐在旁边一同参加沟通会的技术负责人,“这就是行走的人民币”。

“当一个东西很奢侈的时候,很多时候就会想要不要走点捷径,比如可不可以先把产品提升好。但我们的实践证明,走捷径的时候就会被打脸,至少我犯了类似超过十次的错误。”

闫俊杰表示,打脸的结果就是,本来认为技术的重要性有70%,打脸一次75%,再打脸一次80%,直到现在认为技术是最核心的要素。

“对创业来说,一块钱要分成几瓣来花。”闫俊杰说,自己对技术的理解慢慢变得非常简单,第一性原理是,做技术特别是做很大研发投入的技术,追求的东西不应该是5%、10%的提升,而是研发那种能够带来几倍变化的技术,这也是MiniMax坚持的方向。

不过,目前无论是OpenAI,还是国内外大厂、初创公司,都面临着技术增长曲线放缓的困境。闫俊杰认为,大模型未来一个非常本质的变化是错误率从两位数下降到个位数。

“这首先是数量级的提升,其次可以让很多复杂任务从不可做变成可做。为什么现在没有Agent可以跑通,GPT store也跑不通,不是因为Agent的框架不够好,或者产品不够好,根本原因是模型本身不够好,技术不够好。”

作为AGI的信仰者,闫俊杰信奉Scaling law的力量。“当计算量增长不止10倍,算法也快了10倍的时候,没有道理训练不出来一个更好的模型。”

“大部分中国公司比美国公司落后,但按照我们现在的技术进展,再加上国外的技术资源,肯定能做出更好的模型。如果他们的能力更强,显然会做得更好。”

竞争对大模型行业是好事

打不赢就应该被淘汰

虽然闫俊杰强调MiniMax是一家技术主导的公司,但外界更多感知来自产品,尤其是出海。

“我们国内用户量不比海外小,但不太知道为什么只觉得我们出海做得好。我们的技术非常领先,但大家总觉得我们产品做得好,我不太理解为什么会这样。”闫俊杰说。

搜狐科技了解到,目前MiniMax旗下产品全球用户超过6000万,每日与全球用户进行超30亿次交互,处理超3万亿文本token、2000万张图片和7万小时语音,单日交互量居国内AI公司首位;单日总交互时长超4亿分钟,从一年前占ChatGPT的3%提升到53%。

目前,MiniMax旗下的Talkie成为国内AI出海的代表性产品之一,公开数据显示其月活超过千万。

盛静远在沟通中表示,Talkie背后有对人性的深入思考,考虑了AI在高容错率下能做到的程度。“Character AI被谷歌收购后,我们成了赛道的扛大旗者,很有可能成为现象级产品。”

她认为,在海外用户付费习惯更好且产品够好的情况下,会用更多资源在海外进行推广,而海外市场会有一套自己的打法,相对比较直接,变现也会更快。

闫俊杰认为,去年中国的大模型在海外完全没有竞争力,接下来出现了百模大战,包括价格战,非常显著地提高了大模型的调用量。

“正是因为这么激烈,也推动了大家必须把模型做好,到了一定阶段之后,发现在海外越来越具有竞争力,在非英语国家的语种上,比如中文,已经做到能跟GPT不相上下的水平。”

当然,MiniMax也难以避免国内外大厂及其它创业公司的竞争,如字节、快手、百度等都在布局情感陪伴赛道,国外的竞对Character AI则被谷歌收购。“这是一个比较好的结局,似乎每个人在里面都得到了好处。”闫俊杰说。

但闫俊杰强调,星野的产品底层设计不是陪聊或是情感陪伴,而是基于AI的新一代内容社区。据了解,星野的用户画像以二三线城市为主,年龄是在17-24/25岁之间。

对于大模型赛道的竞争,闫俊杰认为,这整体是一件好事,大模型有可能会产生很大的社会价值,确实应该有很多竞争。

“我们作为一家创业公司,竞争不能避免,既然不能避免,那就努力做到最好。如果在竞争中打不赢,那就应该被淘汰,就应该关掉,也没有其它选择。”

同时,他认为,大厂的竞争可以让创业公司很快看清一些非常底层的东西。

“我们能做的就是把有可能变强的事无限地放大,一是技术如何提升,二是如何跟用户做更好的共创。这两点都需要一些非常关键的判断,需要靠非常长期的积累。”闫俊杰说。


搜狐科技
搜狐科技聚焦前沿科学与科技产业报道,深度跟踪基础科学、人工智能、互联网、通信等领域重大事件,洞察科技趋势与商业逻辑。
 最新文章