据不可靠消息,OpenAI大概率在年底正式开放视频生成模型Sora,目前已经有些创作者参与Sora的内测:
而且生成的视频质量看起来非常好:
OpenAI在今年2月份正式发布Sora,距离现在已经有9个多月的时间,但是Sora迟迟没有对外开放。这期间,其他大模型公司已经陆续发布对标Sora的视频模型,比如Runway发布的Gen-3,以及快手发布的可灵等等。大家感觉已经对不开放的Sora失去了兴趣,连Sora的核心作者Tim Brooks前段时间都离开OpenAI去谷歌DeepMind了。所以说,今年底OpenAI很大概率会开放Sora,以重拾大家的信心。
借着Sora可能开放的这个消息,今天我们想聊聊在Sora开放之前,目前市面上已经发布的视频生成模型最好的是哪个。其实,这个问题并不太好回答,因为所有的发布者都说自己是最好的,而且还拿出了可量化的指标。但是,我们知道,对于图像生成和视频生成,量化指标不一定和人工评分是正相关的。所以说,评价视频生成模型的好坏,还是要人还评。之前我们介绍过一个人工评测平台Artificial Analysis's Text-to-Image Arena,当时神秘模型“red_panda"模型在这个榜单上拿了第一:神秘“红熊猫”模型登顶文生图榜首,是DALL-E 4,还是国产之光?最后神秘模型“red_panda"揭秘是一个创业公司:最好的文生图模型“小熊猫”揭秘了,竟然来自一个黑马公司!,而且实测后大家认为效果确实非常能打。
其实这个平台还有其他模型的评测,比如LLM以及视频模型:
这个平台是随机选择两个模型生成的视频,让用户选择更好的那一个,所以其实算是比较客观一些。目前这个平台评测的模型有:Kling 1.0, CogVideoX-5B, Runway Gen 3 Alpha, Pika 1.5, Hailuo Al, Luma Dream Machine, Pyramid Flow, Mochi 1。目前的排行榜如下所示:
这里排行第一是MiniMax的Hailuo AI,Hailuo AI虽然比Gen-3和Kling推出的要晚,但其实效果很能打,这里人工评测也是第一。下面是两个从Hailuo AI官网上看到的例子,整体效果还是非常好的:
而且Hailuo AI也支持图生视频,下面是我实测的蒙娜丽莎:
排行第二的是开源模型Mochi 1,它是一个开源可商用的视频生成模型,生成的视频有高保真度的动作和强大的文本提示遵循能力。所以,这里人工打了第二,其实我还是比较认同的。
但是目前Mochi 1最大的短板是只能生成480p的视频,由于分辨率太低,所以有些生成的动作虽然好,但是质量不佳。希望,后面有更高分辨率的视频模型出现,那么将是一个王炸。
排第三是Runway的Gen-3,Gen-3刚放出来的时候,其实我是被它生成的视频质量给吸引到了:
所以这个结果我也认。
紧接着是快手的Kling,实话实说,Kling当时发布后我实测之后觉得应该是第一能接近Sora的,无论是视频质量还是稳定性,都还好。
但是Gen-3以及后面的Hailuo AI出来后,我觉得Kling还是稍逊一筹。当然这里评测是Kling 1.0,现在听说有更好的Kling 1.5发布了。
然后是Luma Dream Machine,这个模型的特色是动作幅度很大,但是其实生成视频的质量欠佳一些:
再后面是Pika 1.5,不过Pika的基础视频模型能力不是最好的,但是在视频特效上很惊人,见火爆的“AI视频特效”背后是什么?
接下来就是几个开源的视频生成模型:CogVideoX-5B和Pyramid Flow, 其中CogVideoX-5B相对好点,但是和商业模型还是有差距。
上面评测的视频生成模型其实是有限的,比如最近的一些模型没有包括,比如字节发布的PixelDance和Seaweed。而且这次的评测也未必代表个人的喜好,所以只能作为一个参考。
虽然视频生成模型已经有了很大的进步,但是我觉得在效果上还是有很大的进步空间的,希望将要发布的Sora能带给我们新的惊喜!