视频生成是大模型重要的多模态能力,OpenAI发布Sora后,奠定了视频生成的重要技术路线DiT,并且将生成视频的时长提高到分钟级别,成为行业转折点。截至24年10月,Sora一直未发布公测版。与此同时,国内模型厂商率先实现了类Sora落地,MiniMax是其中佼佼者。我们认为,国内视频生成赛道在应用落地节奏上整体更为领先,技术上也并没有太大差距。MiniMax等公司不断迭代大模型技术和产品形态,推动应用落地更为可行。这种推进作用有望在算力和应用两方面带来相关投资机会。
视频生成是大模型重要的多模态能力。OpenAI发布Sora后,奠定了视频生成的重要技术路线DiT,并且将生成视频的时长提高到分钟级别,成为行业转折点。截至24年10月,Sora一直未发布公测版。与此同时,国内外其他模型厂商逐步落地类似Sora的产品。其中,国内大模型初创公司MiniMax于8月上线视频生成模型,效果惊艳,使其产品月访问量增速超800%。我们认为,MiniMax等公司持续优化视频生成效果,有望推动AIGC在各行业的加速落地,加快AI应用迭代;同时由于视频生成所需算力远大于文本,有望进一步提高AI算力需求。关注国产算力链及AI应用。
Sora DiT技术成为视频生成转折点,国内外厂商率先实现产品落地
24年2月,OpenAI发布了视频生成模型Sora,采用了Diffusion Transformer(DiT)技术路径,通过文本提示的方式,能够生成长达1min的高质量视频,且其指令跟随和一致性相比之前Diffusion技术的产品有显著改善。但是截至24年10月,Sora公开版一直未发布。另一方面,国内外其他厂商率先实现了类Sora产品落地,包括国内MiniMax、智谱、字节、快手、爱诗科技、生数科技,海外Runway、Pika、Luma。目前由于算力和技术等因素,视频生成时长一般在10s以内。
MiniMax视频生成模型测评榜Top 1,助力产品月增速800%
24年8月底,MiniMax发布视频生成模型并整合到海螺AI产品中。据第三方榜单VBench统计数据,在VBench-long测评中,MiniMax视频模型总分排行Top 1,并且在空间关系、多目标、图像质量、对象分类、色彩、时间风格等细节指标上Top 1。从实测结果看,对于同样的提示词和默认配置下,对比其他初创公司和大厂的视频生成模型,MiniMax生成的结果一致性、指令跟随性较好,整体用户观感优秀。在视频模型技术加持下,据AI产品榜(web)数据,截至24年9月,海螺AI网页版月访问量增速超800%。
模型和产品双线布局,实现技术到应用的有效PMF
MiniMax视频生成效果优秀,得益于模型技术和产品经验积累。模型方面,MiniMax于23年10月abab 5.5第二代首次实现MoE,2024年4月推出万亿参数MoE abab 6.5和6.5s模型。下一代多模态模型abab 7将采用MoE + Linear Attention,支持更高效的模型训练和更快的响应速度。产品线方面,C端瞄准内容消费/专业助手赛道,形成星野&Talkie/海螺AI产品矩阵。据Sensor Tower数据,2024年1-6月,Talkie月活用户1100万。我们认为,在领先的大模型技术加持下,叠加优秀的PMF和产品运营能力,MiniMax已经在AI应用中占据有力赛道,并有望继续拓展市场,带动行业进步。
风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
区别于市场的观点
国内在视频生成模型应用落地层面领先
市场认为,海外视频生成赛道起步较早、技术领先,例如Runway较早切入了视频生成赛道,具有先发优势;OpenAI Sora对DiT技术的成功改进和应用,大大加强了生成视频的时长、一致性、连续性等性能表现。而国内的视频生成赛道,产品切入较晚,导致技术落后较多。
我们认为,国内视频生成赛道在应用落地节奏上整体更为领先,技术上也并没有太大差距。23年底,国内背景的初创公司Pika Labs发布了Pika 1.0,很快追上了Runway的Gen系列,并且支持选定编辑区域并根据文本提示词修改等特色功能。截至24年10月,OpenAI的Sora仍然未发布,国内则陆续发布了爱诗科技PixVerse、生数科技Vidu、字节跳动即梦、快手可灵、智谱清影和MiniMax海螺AI视频生成等成熟产品,且大多数已经无需排队申请,可以立即使用,在落地上显著快于OpenAI的Sora。此外,OpenAI Sora的DiT技术本身也是公开的、非OpenAI原创的技术,OpenAI只是做了优化改进和更多的算力投入,因此国内厂商在技术跟随上难度并不大。
MiniMax不仅有成熟的内容消费产品,基础模型能力也是国内领先
市场认为,MiniMax是产品公司,不是通用基础模型厂商,基础模型能力并不强。另外,在产品上,MiniMax主要聚焦内容消费赛道,代表产品是星野和Talkie,在其他赛道没有太多突破。
我们认为,MiniMax产品的成功,最本质的还是底层基础模型的成功。MiniMax是国内较早嗅探到MoE(混合专家)将成为主流架构的厂商,23年6月abab 5.5版本开始尝试MoE(5.5的第一版是Dense稠密架构)。23年10月abab 5.5第二代发布,正式转为MoE。随后abab系列不断更新,于2024年4月推出万亿参数MoE abab 6.5和6.5s模型。在下一代abab7模型中,Linear Attention(线性注意力)成为MiniMax下一个技术重点,将支持更高效的模型训练和更快的响应速度,进一步缩减训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,Linear Attention架构可减少部分成本。此外,从token调用量上看,日处理文本token数达3万亿,在国内模型中属于领先。
产品上,MiniMax不光聚焦内容消费赛道,在生产力赛道同样布局了和ChatGPT、智谱清言、月之暗面Kimi类似的AI智能助手——海螺AI,并且依托abab底层模型的技术,提供较强的推理性能。此外,MiniMax于24年8月发布了视频模型abab-video-1并集成在海螺AI中,由于出色的视频生成表现,截至2024年9月,海螺AI网页版月访问量增速超800%。我们认为,MiniMax在成为优秀的产品公司之前,首先是领先的基础模型厂商,AI产品只是大模型能力的展示窗口,底层技术才是模型好用的本质。
OpenAI Sora是视频生成技术转折点,国内厂商率先落地实现
OpenAI Sora结合Diffusion和Transformer技术,成为视频生成行业转折点。24年2月16日,OpenAI发布了视频生成模型Sora,采用了Diffusion Transformer(DiT)技术路径,通过文本提示的方式,能够生成长达1min的高质量视频,且其指令跟随和一致性相比之前Diffusion技术的产品有显著改善,成为视频生成技术关键的转折点。Sora之后,国内外视频生成厂商部分开始将技术重心从Diffusion转移到DiT。DiT架构的本质在于将传统Diffusion模型(LDM,Latent Diffusion Model)中的U-Net替换成了Transformer,优势在于吸收了Transformer的易扩展性,使得DiT更容易实现Scaling Law。而且ChatGPT之后,学术界和工程界已经在大模型领域积累了足够深刻的Transformer技术优化方法。
国内模型厂商率先实现了Sora落地,MiniMax是其中佼佼者
Sora发布后一直没有可用版本,国内外其他厂商则率先实现了类Sora产品落地。Sora发布之前,主要的视频生成产品是海外Runway Gen系列和Pika系列,以及国内爱诗科技Pixverse系列。Sora发布后,各初创公司和大厂在视频生成赛道加速布局,国内厂商进展显著。初创公司方面,大模型公司MiniMax和智谱在AI助手中嵌入了视频生成功能,且发布即可用,无需排队等待。大厂方面,字节即梦和快手可灵先后上线视频生成产品。从视频生成时长看,已落地产品一般在10s以内,和Sora比尚有差距。功能上,基本都支持文/图生成视频,不同产品的细节特色功能上略有差异。价格上,目前MiniMax可以免费使用全量功能,而其他产品想要使用更多功能需要按月订阅或者购买点数。此外,MiniMax还支持提示词自动优化,降低用户使用门槛。
MiniMax视频模型助力产品月访问量增速超800%
视频模型abab-video-1发布1个月,海螺AI网页版月访问量增速超800%。据AI产品榜(web)数据,截至2024年9月,海螺AI网页版月访问量增速超800%,在全球增速榜、国内增速榜双榜单TOP 1。访问量快速增长的主要原因是视频模型abab-video-1在8月底登陆海螺AI后,产品用户数迅速增多。10月10日,海螺视频在文生视频基础上,新增了“图生视频”创作功能。在VBench(视频生成模型评测框架)的第三方独立测试结果中综合排名前列,在画面质量、连贯性、流畅性等多维度均处于领先地位。据Similarweb数据,截至10月,海螺AI视频的平均访问时长为可灵的2倍,Runway的3倍,访问量远超可灵、Runway、Pika。
MiniMax视频生成使用体验领先,第三方榜单中总分Top 1。据第三方榜单VBench统计数据,在VBench-long(类似Sora的长视频生成测评)中,MiniMax视频模型总分排行Top 1。在空间关系、多目标、图像质量、对象分类、色彩、时间风格等细节指标上Top 1,在一致性上Top 2。从实测结果看,对于同样的提示词和默认配置下,对比其他初创公司和大厂的视频生成模型,MiniMax生成的结果一致性、指令跟随性较好,整体用户观感优秀。
MiniMax:视频生成效果优秀,得益于模型和产品双线布局
MiniMax模型和产品双线发展,完整覆盖主流多模态,实现技术到应用的有效PMF。MiniMax成立于21年12月,创始人闫俊杰为前商汤科技副总裁、通用智能技术负责人,曾担任商汤研究院副院长,负责搭建深度学习的工具链和底层算法,深度参与建设人脸识别和智慧城市相关的技术体系。MiniMax成立之后,迅速形成了文本到视觉、文本到语音、文本到文本三大模态的基础模型架构,是国内第一家同时拥有三个模态大模型能力的创业公司,开始践行“Intelligence with Everyone”愿景。
模型线方面,押注MoE+线性注意力,大大提高模型训练和推理效率。MiniMax是国内较早切入MoE(混合专家)模型架构的厂商,23年6月abab 5.5版本开始尝试MoE(5.5的第一版是Dense稠密架构)。23年10月abab 5.5第二代发布,正式转为MoE。随后abab系列不断更新,于2024年4月推出万亿参数MoE abab 6.5和6.5s模型。8月视频模型、音乐模型和更新的语音模型上线,多模态模型矩阵基本完善。据MiniMax官方信息,下一代模型abab 7将在未来数周内发布,为MoE + Linear Attention(线性注意力)的多模态模型。abab 7将支持更高效的模型训练和更快的响应速度,进一步缩减训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,新架构可减少60%以上成本,且优势随着序列长度边长而扩大。
产品线方面,C端瞄准内容消费/专业助手赛道,面向娱乐/生产力不同用户群。1)初代产品Glow进行小范围探索后,逐渐演化成海外Talkie、国内星野的内容消费型Killer App。据Sensor Tower数据,2024年1-6月,美国地区下载量最高的App中,MiniMax Talkie排名第四,每月活跃用户1100万,其中一半以上在美国。此赛道排名第一的Character.AI月活用户约1700万。2)基于大模型能力,推出AI智能助手初代产品Inspo/问卷,随后经历了海螺问问等形态迭代,最终向终端用户呈现海螺AI,定位严肃和专业场景智能助手。24年8月视频模型上线后,视频生成功能也被集成在了海螺AI中。
日处理3万亿token,MiniMax模型规模效应显现
MiniMax日处理文本token数达3万亿,交互时长达ChatGPT的53%。8月31日伙伴日上,MiniMax宣布大模型已有日均30亿次AI交互量,日处理3万亿文本token、生成2000万张图片、合成7万小时语音。与ChatGPT交互时长相比,MiniMax在2023年8月为其3%,而在2024年8月已经达到其53%,进展迅速。此外,伙伴日还发布了视频模型abab-video-1、音乐模型abab-music-1,更新语音模型abab-speech-1。
投资建议
MiniMax等公司不断迭代大模型技术和产品形态,推动应用落地更为可行。我们认为,这种推进作用有望在算力和应用两方面带来相关投资机会。
算力方面,Sora提出的技术路线将视频生成时长扩展到分钟级别。但是目前已经落地的视频生成产品,生成时长普遍在10s以内,除了技术上还有优化空间外,算力是重要的限制因素。因为视频的本质是连续的多帧图像,而一张图像对应的token数远大于一个文字对应token数,随着视频生成时长、帧率、分辨率的提升,算力需求迅速增加。我们认为,随着视频生成的质量越来越好,以及游戏、教育、影视等各行业渗透率的逐步提高,有望带来算力需求的广泛增长,因此,算力相关标的或将受益。
应用方面,视频生成是多模态大模型众多的能力和应用领域之一。大模型本身的智能,会随着训练数据的增多和模态的丰富而发生“涌现”现象。我们认为,随着各种模态联合训练的推进,大模型的通用和泛化性能将持续提高,基于大模型的AI应用也将更加智能,AI应用相关公司有望受益于大模型进步。
推荐标的和概念股梳理,请见研报原文。
风险提示
宏观经济波动。若宏观经济波动,可能对AI产业资本投入产生负面影响,导致AI产业变革、新技术落地节奏、整体行业增长不及预期。
技术进步不及预期。若AI技术、大模型技术、AI应用进展不及预期,或对行业落地情况产生不利影响。
中美竞争加剧。中美竞争加剧,或影响国内算力基础设施布局,导致国内AI大模型技术迭代速度放缓。
研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
相关研报
谢春生 分析师 S0570519080006 | BQZ938
袁泽世 分析师 S0570524090001
关注我们
https://inst.htsc.com/research
访问权限:国内机构客户
https://intl.inst.htsc.com/research
免责声明