Sora开放前夕，最好的视频生成模型是哪个？

科技 2024-11-26 20:28 广东

据不可靠消息，OpenAI大概率在年底正式开放视频生成模型Sora，目前已经有些创作者参与Sora的内测：

而且生成的视频质量看起来非常好：

OpenAI在今年2月份正式发布Sora，距离现在已经有9个多月的时间，但是Sora迟迟没有对外开放。这期间，其他大模型公司已经陆续发布对标Sora的视频模型，比如Runway发布的Gen-3，以及快手发布的可灵等等。大家感觉已经对不开放的Sora失去了兴趣，连Sora的核心作者Tim Brooks前段时间都离开OpenAI去谷歌DeepMind了。所以说，今年底OpenAI很大概率会开放Sora，以重拾大家的信心。

借着Sora可能开放的这个消息，今天我们想聊聊在Sora开放之前，目前市面上已经发布的视频生成模型最好的是哪个。其实，这个问题并不太好回答，因为所有的发布者都说自己是最好的，而且还拿出了可量化的指标。但是，我们知道，对于图像生成和视频生成，量化指标不一定和人工评分是正相关的。所以说，评价视频生成模型的好坏，还是要人还评。之前我们介绍过一个人工评测平台Artificial Analysis's Text-to-Image Arena，当时神秘模型“red_panda"模型在这个榜单上拿了第一：神秘“红熊猫”模型登顶文生图榜首，是DALL-E 4，还是国产之光？最后神秘模型“red_panda"揭秘是一个创业公司：最好的文生图模型“小熊猫”揭秘了，竟然来自一个黑马公司！，而且实测后大家认为效果确实非常能打。

其实这个平台还有其他模型的评测，比如LLM以及视频模型：

这个平台是随机选择两个模型生成的视频，让用户选择更好的那一个，所以其实算是比较客观一些。目前这个平台评测的模型有：Kling 1.0, CogVideoX-5B, Runway Gen 3 Alpha, Pika 1.5, Hailuo Al, Luma Dream Machine, Pyramid Flow, Mochi 1。目前的排行榜如下所示：

这里排行第一是MiniMax的Hailuo AI，Hailuo AI虽然比Gen-3和Kling推出的要晚，但其实效果很能打，这里人工评测也是第一。下面是两个从Hailuo AI官网上看到的例子，整体效果还是非常好的：

而且Hailuo AI也支持图生视频，下面是我实测的蒙娜丽莎：

排行第二的是开源模型Mochi 1，它是一个开源可商用的视频生成模型，生成的视频有高保真度的动作和强大的文本提示遵循能力。所以，这里人工打了第二，其实我还是比较认同的。

但是目前Mochi 1最大的短板是只能生成480p的视频，由于分辨率太低，所以有些生成的动作虽然好，但是质量不佳。希望，后面有更高分辨率的视频模型出现，那么将是一个王炸。

排第三是Runway的Gen-3，Gen-3刚放出来的时候，其实我是被它生成的视频质量给吸引到了：

所以这个结果我也认。

紧接着是快手的Kling，实话实说，Kling当时发布后我实测之后觉得应该是第一能接近Sora的，无论是视频质量还是稳定性，都还好。

但是Gen-3以及后面的Hailuo AI出来后，我觉得Kling还是稍逊一筹。当然这里评测是Kling 1.0，现在听说有更好的Kling 1.5发布了。

然后是Luma Dream Machine，这个模型的特色是动作幅度很大，但是其实生成视频的质量欠佳一些：

再后面是Pika 1.5，不过Pika的基础视频模型能力不是最好的，但是在视频特效上很惊人，见火爆的“AI视频特效”背后是什么？

接下来就是几个开源的视频生成模型：CogVideoX-5B和Pyramid Flow, 其中CogVideoX-5B相对好点，但是和商业模型还是有差距。

上面评测的视频生成模型其实是有限的，比如最近的一些模型没有包括，比如字节发布的PixelDance和Seaweed。而且这次的评测也未必代表个人的喜好，所以只能作为一个参考。

虽然视频生成模型已经有了很大的进步，但是我觉得在效果上还是有很大的进步空间的，希望将要发布的Sora能带给我们新的惊喜！

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星