MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”

科技   2024-09-07 10:15   辽宁  

上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版,很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。

在 MiniMax 内部,多模态已经是一件非常确定的事情了。

“在人类社会,大模型的核心意义是做更好的信息处理,而大部分的信息体现在多模态内容里,而非文字上,文字很多时候只是其中精华的一小部分。”闫俊杰解释道。

“为了有非常高的用户覆盖度和使用深度,唯一的办法就是能够输出动态的内容,而非只输出单纯的文字内容,这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来,这两点是达成“Intelligence with Everyone”的核心,也是 MiniMax 的差异化能力。

用户方面,MiniMax 已经有了不错的成绩。据统计,MiniMax 每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量排名国内 AI 公司首位。

但在视频生成赛道,MiniMax 的发布算不上早。闫俊杰对此的解释是,“我们在解决一个更难的技术问题:如何能够原生地训练算力比较高的东西。”

具体来说,首先,训练视频生成能力时也需要先把视频变成一些 token,视频变成的 token 非常长,越长复杂度就越高,MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。

其次,视频还很大,比如 5 秒的视频有几兆,而 5 秒看到的文字可能不到 1K,这是千倍的存储差距。因此,之前基于文本模型的基础设施,对视频模型来说是不适用的,这意味着要对基础设施进行升级。

“一两周新的东西出来,并达到我们更加满意的状态后,可能会考虑商业化。”闫俊杰表示。

1 “能带来数倍提升的技术才值得投入研发”  

视频生成模型的研发更让闫俊杰坚定了一件事:无论是视频、文本还是声音,核心都不是让一个算法带来 5%、10% 的提升,重要的是找到提升数倍的方式,如果能够提升数倍就一定要做出来,如果只提升 5% 就不太值得做。

“从读书、工作,到现在创业,我对技术的理解慢慢变得非常简单,就是第一性原理。技术,特别是有很大研发投入的技术,追求的不应该是 10% 的提升,如果一个技术的提升只有 10%,那这个技术就不应该做,原因是你不做也会有人做或有人开源出来,其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。

“对创业来说,一块钱掰成几份来花是非常难的。像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,但对满足用户的需求又很重要,只能自己来做,这样的才是核心的东西。”闫俊杰说道。

那么,MiniMax 做大模型的核心是什么?

闫俊杰的答案是:快 = 好。

在率先判断出 MoE 技术路线后,MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构,MiniMax 大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。

MiniMax 与GPT-4o 同一代模型能力进行对比发现,新一代模型处理 10 万 token 时效率可提升 2-3 倍,并且随着长度越长,提升越明显。相比于通用 Transformer 架构,在 128K 的序列长度下,新架构成本减少 90% 以上。

“不管是做 MoE、Linear attention 还是其他的,本质上是让同样的效果模型变得更快,快才意味着同样的算力可以做得更好,这是我们最底层的研发思路。”闫俊杰说道。

“从实际应用上,就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容,这对用户的体验损伤比较大,如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。

2 “产品不赚钱是技术不够好”  

目前,MiniMax 在国内 C 端的主打产品是星野和海螺 AI。

“当一个产品没人用或者不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。”闫俊杰说道。

因此,在闫俊杰看来,像基于 GPT-4 的 GPT Store 跑不通的根本原因,不是因为 Agent 的框架写得不够好,是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”

现在所有的模型错误率都是 20% 的量级,闫俊杰认为,真正发生变革的是有一个模型可以把错误率降低到个位数,这会让很多复杂的任务从“不可以”变得“可以”。

“当技术做得不好的时候,所有东西都是问题,当技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,我觉得我花了两年才意识到这件事。”闫俊杰说道。

在闫俊杰看来,做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为做技术,可能会失败、投入也很大。当一个东西很奢侈时,很多时候就会想要不要走点捷径,比如不做技术,先把产品提升好等。

“实践经验证明,走捷径的时候会被打脸。”闫俊杰笑道。

目前,MiniMax 的商业化基本上分成两种模式:一是面向企业的开放平台,现在已经有两千多家的客户,包括互联网公司、传统企业等;二是在自有产品里设立广告机制进行变现。

“现阶段,最重要的还不是商业化,是真正地对技术到达广泛可用的程度。”闫俊杰表示。

对于国内市场,MiniMax 希望打造偏工具类的产品,比如会给海螺 AI 不断打磨出新的功能,直到产生了很强的用户粘性。“粘性构造起来后,我们才会考虑 ROI 和 Retention。这个飞轮转起来了,我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。

盛静远认为,这个 ROI 会有转起来的一天,但不是今天的产品形态。“作为一个普通消费者,今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品,这个模式是不成立的。”

但海外市场不太一样。海外企业更愿意付费,因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了,更多是公司的精力和资源,以及怎么变现的问题。海外市场有一套自己的打法,会相对地比较 straightforward,变现也更快。”

实际上,MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中,Talkie 位列 22 位。

盛静远总结道,任何伟大的 2 C 产品都是基于人性的深入思考,另外则要考虑 AI 在高容错率的情况下可以做什么,并变成大众喜闻乐见的产品。

3 结束语  

大模型领域的竞争依然在继续。闫俊杰表现得比较淡然,“这就是一个发展的客观规律,作为一家创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。”

在与大厂的竞争中,闫俊杰认为,要赢就要更快地看清非常底层的东西,“大公司开始跟你竞争时,就会意识到有些东西是没用的,因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情:一是提升技术;二是跟用户共创,这两点非常关键的判断是需要长期积累的。”

而对于国内的大模型价格战,闫俊杰认为确实非常大地提高了模型的调用量,本来认为大模型很贵的公司,包括很多传统的企业开始愿意使用大模型,因为成本低对出错的容忍度也会高一些。“正是激烈的竞争,推动了大家必须得把模型做好。一定阶段之后,大家会发现自己的模型在海外也有竞争力,比如东南亚等,至少目前已经在非英语国家的语种上跟 GPT 不相上下。”

“我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得这是两个积极的变化。”闫俊杰说道。

今日好文推荐

剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了

要低代码,不要低能力,低代码工具能否成为企业增效神器?

“制霸”硅谷的印度 CEO,惨遭“大清洗”?

C 语言老将从中作梗,Rust for Linux 项目内讧升级!核心维护者愤然离职:不受尊重、热情被消耗光

InfoQ
为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
 最新文章