三月份字节的Dreamina(即梦)发布后,我们第一时间与Sora进行了对比评测,在快手可灵大模型发布一周内我们也拿到了内测资格,作为与Sora采用了同样的DiT架构的视频生成模型,我们实测一下包括可灵和Luma与OpenAI Sora的差距还有多少。
可灵视频生成模型的入口目前在快影App中,现在还只开放了生成5s的视频的能力,但是模型本身是可以生成更长的视频,主要原因是Transformer架构下的推理随着token/patch长度的提升,算力的需求是指数级增长(详见AI模型系列报告:从世界模型看算力需求变化)。Luma同样是生成5s的视频,但是额外提供了图生视频的能力。
结论:
可灵在生成视频的总体效果上是目前国内的第一梯队,目前的排序为Sora>>可灵>luma=dreamina>runway>>pika。可灵在人物动态和镜头流畅度上有明显优势,但是对于精细的部分处理不好,比如人物的面部,推测是受限于算力,单帧分割的patch数量不够多。可灵的训练素材也是有明显问题的,比如生成会飞的猪的视频的时候,无论怎么调整提示词,生成的猪都是小猪佩奇的2D动画。
Luma在生成视频材质清晰度上表现不佳,但是生成速度很快,5s的视频大约只需要30s即可生成(可灵和Dreamina都需要数分钟),并且运镜十分激进,很多大幅快速运动的镜头。
可灵和Luma的指令服从性表现都没有很好,视频细节和人物的运动速度无法很好的服从提示词。OpenAI针对视频生成的提示词作了优化工作,能更好地描述视频中的细节。虽然Luma也有提示词增强功能,但没有发现比可灵明显的优势。
下面为相同提示词下生成视频的实测对比: