今天Runway开放了对订阅会员的Gen-3 Alpha视频生成模型使用,我们第一时间进行上手实测对比,主要结论如下:
1. 生成效果没有官方样例质量高,仍会出现不符合物理世界的结果,类似于图像生成,视频生成也存在"抽奖效应",并且比图像生成更为严重,生成满意的视频可能需要数十次,主要原因是图像的表征空间数量远大于文本的token种类数量。因此,相比于大语言模型,视频生成模型在本身推理成本就更高的情况下,推理次数也会增加。
2. 对英文的处理效果比较理想,利好商业应用。目前可用的较好的视频生成模型包括字节的即梦和快手的可灵对文字的处理都有问题,类似于Stable Diffusion3, Runway Gen-3也针对文字做了特殊优化。人物面部的清晰度也是高于即梦与可灵的,但是对于移动的手掌和腿部处理仍有不足。
3. 使用费用贵,15美元每月提供625积分,生成10s的视频需要100积分,接近20元人民币,后续充值是1美元100积分。
4. 生成速度快,不到两分钟即可生成10s的720P视频,可灵生成5s的视频需要3-5分钟。
同提示词与Sora和可灵的实测对比如下: