MiniMax 视频生成模型首秀！闫俊杰：大模型的研发核心是“快”

科技 2024-09-07 10:15 辽宁

上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版，很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。

在 MiniMax 内部，多模态已经是一件非常确定的事情了。

“在人类社会，大模型的核心意义是做更好的信息处理，而大部分的信息体现在多模态内容里，而非文字上，文字很多时候只是其中精华的一小部分。”闫俊杰解释道。

“为了有非常高的用户覆盖度和使用深度，唯一的办法就是能够输出动态的内容，而非只输出单纯的文字内容，这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来，这两点是达成“Intelligence with Everyone”的核心，也是 MiniMax 的差异化能力。

用户方面，MiniMax 已经有了不错的成绩。据统计，MiniMax 每日与全球用户进行超 30 亿次交互，处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音，大模型日处理交互量排名国内 AI 公司首位。

但在视频生成赛道，MiniMax 的发布算不上早。闫俊杰对此的解释是，“我们在解决一个更难的技术问题：如何能够原生地训练算力比较高的东西。”

具体来说，首先，训练视频生成能力时也需要先把视频变成一些 token，视频变成的 token 非常长，越长复杂度就越高，MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。

其次，视频还很大，比如 5 秒的视频有几兆，而 5 秒看到的文字可能不到 1K，这是千倍的存储差距。因此，之前基于文本模型的基础设施，对视频模型来说是不适用的，这意味着要对基础设施进行升级。

“一两周新的东西出来，并达到我们更加满意的状态后，可能会考虑商业化。”闫俊杰表示。

1 “能带来数倍提升的技术才值得投入研发”

视频生成模型的研发更让闫俊杰坚定了一件事：无论是视频、文本还是声音，核心都不是让一个算法带来 5%、10% 的提升，重要的是找到提升数倍的方式，如果能够提升数倍就一定要做出来，如果只提升 5% 就不太值得做。

“从读书、工作，到现在创业，我对技术的理解慢慢变得非常简单，就是第一性原理。技术，特别是有很大研发投入的技术，追求的不应该是 10% 的提升，如果一个技术的提升只有 10%，那这个技术就不应该做，原因是你不做也会有人做或有人开源出来，其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。

“对创业来说，一块钱掰成几份来花是非常难的。像我们这样的创业公司，真正应该花钱做的研发是那种能够带来几倍变化的技术，这种东西很多时候如果我们自己不做，外面也没有，但对满足用户的需求又很重要，只能自己来做，这样的才是核心的东西。”闫俊杰说道。

那么，MiniMax 做大模型的核心是什么？

闫俊杰的答案是：快 = 好。

在率先判断出 MoE 技术路线后，MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构，MiniMax 大模型能在单位时间内更加高效地训练海量数据，极大地提升了模型的实用性和响应速度。

MiniMax 与GPT-4o 同一代模型能力进行对比发现，新一代模型处理 10 万 token 时效率可提升 2-3 倍，并且随着长度越长，提升越明显。相比于通用 Transformer 架构，在 128K 的序列长度下，新架构成本减少 90% 以上。

“不管是做 MoE、Linear attention 还是其他的，本质上是让同样的效果模型变得更快，快才意味着同样的算力可以做得更好，这是我们最底层的研发思路。”闫俊杰说道。

“从实际应用上，就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容，这对用户的体验损伤比较大，如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。

2 “产品不赚钱是技术不够好”

目前，MiniMax 在国内 C 端的主打产品是星野和海螺 AI。

“当一个产品没人用或者不赚钱的时候，肯定不能怪用户，大部分时候只能怪自己的技术做得不够好，或者产品做得不够好。”闫俊杰说道。

因此，在闫俊杰看来，像基于 GPT-4 的 GPT Store 跑不通的根本原因，不是因为 Agent 的框架写得不够好，是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”

现在所有的模型错误率都是 20% 的量级，闫俊杰认为，真正发生变革的是有一个模型可以把错误率降低到个位数，这会让很多复杂的任务从“不可以”变得“可以”。

“当技术做得不好的时候，所有东西都是问题，当技术做好了，似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素，我觉得我花了两年才意识到这件事。”闫俊杰说道。

在闫俊杰看来，做技术是一件非常奢侈的事，这件事甚至只有创业的时候才会理解，因为做技术，可能会失败、投入也很大。当一个东西很奢侈时，很多时候就会想要不要走点捷径，比如不做技术，先把产品提升好等。

“实践经验证明，走捷径的时候会被打脸。”闫俊杰笑道。

目前，MiniMax 的商业化基本上分成两种模式：一是面向企业的开放平台，现在已经有两千多家的客户，包括互联网公司、传统企业等；二是在自有产品里设立广告机制进行变现。

“现阶段，最重要的还不是商业化，是真正地对技术到达广泛可用的程度。”闫俊杰表示。

对于国内市场，MiniMax 希望打造偏工具类的产品，比如会给海螺 AI 不断打磨出新的功能，直到产生了很强的用户粘性。“粘性构造起来后，我们才会考虑 ROI 和 Retention。这个飞轮转起来了，我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。

盛静远认为，这个 ROI 会有转起来的一天，但不是今天的产品形态。“作为一个普通消费者，今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品，这个模式是不成立的。”

但海外市场不太一样。海外企业更愿意付费，因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了，更多是公司的精力和资源，以及怎么变现的问题。海外市场有一套自己的打法，会相对地比较 straightforward，变现也更快。”

实际上，MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中，Talkie 位列 22 位。

盛静远总结道，任何伟大的 2 C 产品都是基于人性的深入思考，另外则要考虑 AI 在高容错率的情况下可以做什么，并变成大众喜闻乐见的产品。

3 结束语

大模型领域的竞争依然在继续。闫俊杰表现得比较淡然，“这就是一个发展的客观规律，作为一家创业公司，如果我们在竞争中打不赢，那我们就应该被淘汰，其实也没有其他的选择。”

在与大厂的竞争中，闫俊杰认为，要赢就要更快地看清非常底层的东西，“大公司开始跟你竞争时，就会意识到有些东西是没用的，因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情：一是提升技术；二是跟用户共创，这两点非常关键的判断是需要长期积累的。”

而对于国内的大模型价格战，闫俊杰认为确实非常大地提高了模型的调用量，本来认为大模型很贵的公司，包括很多传统的企业开始愿意使用大模型，因为成本低对出错的容忍度也会高一些。“正是激烈的竞争，推动了大家必须得把模型做好。一定阶段之后，大家会发现自己的模型在海外也有竞争力，比如东南亚等，至少目前已经在非英语国家的语种上跟 GPT 不相上下。”

“我们看到乐观的一面，国内大模型的使用量确实在显著地增长，并且中国的模型在海外确实越来越具有竞争力，我觉得这是两个积极的变化。”闫俊杰说道。

今日好文推荐

剥离几百万行代码，复制核心算法去美国？TikTok 最新回应来了

要低代码，不要低能力，低代码工具能否成为企业增效神器？

“制霸”硅谷的印度 CEO，惨遭“大清洗”？

C 语言老将从中作梗，Rust for Linux 项目内讧升级！核心维护者愤然离职：不受尊重、热情被消耗光

http://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&mid=2651218078&idx=2&sn=566d581f1ac64906e462510978be3e13

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

AI原生、多实例、无容器，Web IDE 框架 CodeBlitz 2.0 发布

这是最近频繁刷的Go面试题，好用！| 极客时间

安全专家利用 SQL 注入攻击机场安检漏洞

“法定退休年龄计算器”热到崩溃；活久见：近一万颗星的知名开源项目竟被无理要求闭源；“纯血鸿蒙”正式版将于月底上线 | Q资讯

OpenAI 正在卷土重来！发布最新模型 o1，这次变为华人扛大旗？

InfoQ 技术大会双节福利套餐来啦！无套路立享折扣优惠

三个月建成“世界最大”Nvidia GPU 计算集群，马斯克：不够，还要再加 10 万个

从淘宝用户增长到生成式大模型：5 年，我的思考变了？

中小银行如何通过组织力建设与人才培养推动数字化转型？

与顶尖专家一起深入VLDB 2024，洞悉数据库技术的未来趋势 | Q推荐

谷歌在 YouTube 上利用 Transformer 架构进行音乐推荐

RAG风口十问：大数据与AI是价值落地还是过度炒作？

柔性计算向云计算至少再要 30% 效率 | 对话华为云首席架构师顾炯炯

OpenAI 有 o1 大模型，QCon 有大模型推理技术实践，大模型基础设施与算力优化拿捏！| QCon

未来的数据架构是真正可移植的

加速“AI+金融”落地，招行上半年IT支出达48.6亿

机房锂电池火灾致阿里云服务瘫痪，超 30 小时灭火仍未结束：持续浇水，数据中心成“危楼”！？

云上 AI 时代，逆势涨薪攻略 | Q推荐

一场演讲就能“值回票价”！来 QCon 听李云分享 AI 时代团队管理的变与不变

我在构建 MLOps 系统四年中学到的经验

蚂蚁集团开源向量索引库 VSAG，高效支持千维以上向量存储

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

“大前端已死？”没有永远的技术红利，但应具备重拾信心的勇气

韩国“N 号房”事件因 Deep Fake 再现，受害者向中国网友求救

Java 虚拟线程：案例研究

Uber 持续部署优化：在大型 Monorepos 中自动化微服务

Android 全力押注 Rust，Linux 却在原地踏步？谷歌：用 Rust 重写固件太简单了！

扎心！每月超300万用户访问的AI网站国内只有3个，平均DAU只有10万，AI路在何方｜AI产品榜

一线实践揭秘：腾讯、蚂蚁、携程、B站的可靠性工程与 AIOps 之旅 | QCon

SwiftUI 真的适合大规模应用吗？三家初创公司的实践经验告诉你

Cloudflare 引入自动化 SSL/TLS 以保护和简化源服务器连接

0 基础 2 分钟就能手撸一款 App，手机上也能操作！解放程序员的工具又多了一个

字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

大模型来袭，AI 如何重塑我们的工作方式？| 直播预告

借助 AI 实现高效的 DevSecOps 工作流程

CockroachDB取消免费Core版本，引社区担忧

赔偿金达36月工资！LG显示巨亏，竟有1400人自愿离职？马斯克P图点赞《黑神话：悟空》；花钱看不了国足比赛！爱奇艺致歉|Q资讯

“僵尸”实例无处不在

一款小而强大的编程助手：零一万物正式开源 Yi-Coder 系列模型

Meta 开源 DCPerf：一个面向超大规模云工作负载的基准测试套件

订阅费超普通人月薪！一个月1.4万人民币，谁还用得起大模型？

MiniMax 视频生成模型首秀！闫俊杰：大模型的研发核心是“快”

OpenMetrics 归档并合并到 Prometheus

支付宝宣布推出独立 AI 原生 App“支小宝”

被黑猴子虐爆了！索尼 8 年耗资 20 亿打造的巨作，14 天速死，成业内最大笑话！

系统又双叒叕“挂了”？互联网公司如何维稳“生命线”

Ilya 新公司融资 10 亿，员工仅 10 人：AGI 成功前，不发布任何产品

如何应对企业架构中的复杂度问题？

人工智能缺乏“激励机制”，如何重新定位和思考 AI 的发展？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉