我们试了市面上八款视频模型，发现 Sora 确实不太行了

科技 2024-12-30 18:16 北京

AI 创作大比拼。

作者 | 连冉
编辑 | 郑玄

过去一个月，随着 Sora 正式面向用户开放，视频模型赛道进入了新一轮疯狂内卷。不仅谷歌推出号称最强视频模型 Veo 2，国内的可灵、Minimax 也相继更新。视频模型的热闹，一时间甚至盖过了近期大热的推理模型和 3D 生成模型。

有意思的是，被认为行业标杆的 Sora——这个去年春节期间发布的惊艳了全行业的期货，却在正式发布后遭到了极客们和不少业内人士的吐槽，认为其表现没有想象中惊艳，尤其对比过去一年陆续发布的国内外视频模型，Sora 看起来已经没有优势甚至还要落后于这些「后辈」。

国内视频模型已经吊打 Sora？出于好奇，笔者选取了下面 7 款国产视频模型，加上 Sora，做了一个技术视角上未必严谨，但更代表用户直观体验的评测。

腾讯元宝
字节即梦 AI
快手可灵 AI
生数科技 Vidu 1.5
Pixverse
海螺 AI (MiniMax)
智谱清影

笔者选取了创意短片、高校、幻想、二次元、网红视频五个内容领域，分别用 ChatGPT 生成了五段提示词，来看看这八个模型，在这五个领域的生成表现到底如何。

最后先叠个甲：今天视频大模型实际使用的时候还很难一步到位，往往需要多次生成数十条甚至更多的视频，才能有几个可用的结果。由于时间有限，我们在测试时每个 Prompt 只生成了几段视频，从中挑选了结果比较好的一个，由于测试数量有限，这里不能作为严谨的能力测试，只让大家对今天国产模型的能力有一个整体印象。

创意短片

首先测试的是创意短片，这其实也是今天视频模型最重要的商业化应用场景——今天一部分广告营销公司正在探索如何利用视频大模型制作商业宣传广告。过去在这个领域，制作一条高质量创意广告的价格可能高达数万乃至数百万没有。

而生成创意短片，其实考验大模型两方面的能力：第一是基于能否把一些抽象的概念，变成可以看得见、摸得着的故事，也就是创意能力；第二是把创意变成视频画面，也就是创作视频的能力。

ChatGPT 生成的提示词如下：

用五个关键词：科技、爱情、未来、机器人、失落，生成一个科幻爱情短片，展现未来世界中人工智能与人类情感的碰撞。

我们用每一个视频模型都生成了数个视频片段，从中选取了比较的好一个，具体结果及观感如下所示：

1. 腾讯元宝 AI

元宝生成的这段视频效果比较一般，像是一个背景上贴了两张视觉中国的机器人和人类抠图。

2. 字节即梦 AI

即梦的这段视频的画面感觉稍微好一点，有点像 2000 年前后的星战电影，不过说是爱情，这两位看起来却像是同行，颇有点彩虹之风，这个精神状态可以说很超前了。

3. 快手可灵 AI

可灵的这段视频，机器人和人类的质感和着装更有未来科技感，五秒钟的视频像是演绎了《魂断蓝桥》里爱人重逢的经典画面，很有故事感，画面还用了一些电影运镜的手法。不过有点微妙的是，机器人看起来有点偏中性甚至女性，也有点彩虹风。

4. 生数科技 Vidu 1.5：

Vidu 的这段和前几段视频走了一个完全不同的风格，很有赛博漫画的感觉，是几个大模型里主题风格最独特的一个。

5. Pixverse：

跟可灵 AI 的感觉有点像，而且也有点彩虹风。

6. 海螺 AI (MiniMax)：

海螺 AI 的这条画面和运镜处理的都不错，不过故事的诠释有点不像爱情，像「战友情」。

7. 智谱清影：

智谱的这个确实有点抽象，人物建模有点像 3D 游戏，还跳了一段舞，另外 5 秒左右的时候男主的眼睛有点诡异。

8. OpenAI Sora

最后是 Sora，这个确实有点难评价：机器人比真人大很多，而且全程无表情，像是机械神灵即将审判眼前的信徒。

综合来看，在创意短片的这八条视频里，七个国产大模型的表现都明显好于 Sora。其中几个模型的表现可圈可点：可灵和海螺的视频表现最自然，即梦比较真实，Vidu 比较则有特点。

搞笑短片

第二组我们测试了搞笑短片，这其实是视频模型另一个非常有潜力的应用场景——越来越多的短视频创作者和内容公司正在尝试通过视频大模型来制作更生动、更贴近受众需求的娱乐内容。

生成搞笑短片，主要考验大模型在两个维度上的能力：其一是反应能力，即对恰当的幽默点的捕捉，其二是画面呈现能力，也就是能否通过将搞笑点准确传递，同时保持画面流畅。

ChatGPT 生成的提示词如下：

生成一个视频，展示一只猫试图跳上沙发，结果一头栽进沙发的缝隙里，表现出惊讶和尴尬的表情。

我们用每一个视频模型都生成了数个视频片段，从中选取了比较的好一个，具体结果及观感如下所示：

1. 腾讯元宝

除了「试图跳上沙发」表现成「爬上沙发」，元宝生成的这段视频对提示词的还原还是比较贴切的。

2. 字节即梦 AI

漏掉了「试图跳上沙发」的环节，只呈现了当一个人/猫尴尬的时候会让自己看起来很忙碌的即视感。

3. 快手可灵 AI

在完整表现提示词的前提下，连「尴尬」的表情都有。

4. 生数科技 Vidu

完成了试图跳上沙发无果的部分，但是没栽进沙发的缝隙里，而是掉到了地上。

5. Pixverse

怎么变成两只猫……掉下来那只脸上不是「惊讶」而是「惊恐」。

6. 海螺 AI (MiniMax)

没有掉进缝隙里，但能看出猫咪脸上若隐若现的尴尬。

7. 智谱清影

跳上沙发没表现出来，中间猫猫还有点变形了，不过最后的「恼羞成怒」还是有点贴切的。

8. OpenAI Sora

「栽进沙发的缝隙里」表现成猫咪的身体和沙发融为一体，瞬间变微型惊悚片。

综合来看，在搞笑短片的这八条视频里，元宝、即梦 AI、可灵 AI 基本完整连贯地表现了提示词里的内容，其他模型的表现则有点多少缺失。

幻想短片

第三组测试的是幻想短片。这同样是视频模型的一个重要探索方向——越来越多的内容创作者和公司开始尝试利用视频大模型打造具有高度沉浸感的奇幻世界。

生成幻想短片，其实考验大模型两方面的能力：第一是创意能力，能否从字面设定中，构建出一个充满想象力的世界，将未知的场景转化为具体可视的画面；第二是细节呈现能力，能否呈现出丰富的光影效果和动态的环境设计。

ChatGPT 生成的提示词如下：

一个人在梦中穿越不同的奇异世界，包括浮空岛屿、巨型植物、以及巨大的未知生物。

具体结果及观感如下所示：

1. 腾讯元宝

有点古风即视感，主打一个绿色调。

2. 字节即梦 AI

这个就更绿了，还很像游戏画面。「一个人在梦中穿越不同的奇异世界」这一点是一点也没体现。

3. 快手可灵 AI

这个「穿越」很快速，但除了植物没有其他生物了。

4. 生数科技 Vidu 1.5

这个给人感觉很像「梦」，是那种五彩斑斓的梦，尤其开头生动体现了噩梦中的「惊吓感」。

5. Pixverse

虽然人物最后一秒变形了，不过解读出了除了大型植物意外以外的存在。

6. 海螺 AI (MiniMax)

人物变形得很明显。不过这个梦的色彩还是蛮斑斓的。

7. 智谱清影

主打一个粉色梦幻。

8. OpenAI Sora

游戏操控弹跳视角。

综合来看，在幻想短片的这八条视频里，可灵 AI 和 Vidu 的表现最贴切，尤其 Vidu 跟其他大模型生成的内容似乎不在一个次元。即梦 AI 和 Sora 都太像游戏视角与画面了。

二次元

第四组的关键词是二次元。风格化内容是视频模型主推的方向之一，二次元这一风格受众广泛，市场需求强烈。这类短片的创作对大模型在画风设定、角色设计和场景构建上要求较高，同时需要叙事和动态表现的深度融合。

ChatGPT 生成的提示词如下：

制作一个二次元风格视频，讲述一位年轻少女在异世界冒险。她在一个被魔法和奇幻生物充斥的世界中，结识了各种伙伴，并面临来自黑暗势力的挑战。

具体结果及观感如下所示：

1. 腾讯元宝

这完全是可以哄小孩的动画短片了，小女孩最后眉飞色舞的。

2. 字节即梦 AI

跟上一 part 的测试一样，又很像游戏画面。

3. 快手可灵 AI

这个也很像哄小孩的动画片，只是有点看不出「冒险」，一派其乐融融的景象。

4. 生数科技 Vidu 1.5

这个动画的色彩有点过度饱和了。

5. Pixverse

这个短片有比较明显的皮克斯动画风格。

6. 海螺 AI (MiniMax)

开头的年轻少女会有点让人想起葫芦娃，倒是号召来几个伙伴，就是最左边的伙伴变形了。

7. 智谱清影

很日漫。

8. OpenAI Sora

除了没有伙伴，对提示词的表现是相对最贴切的，不过就没有很二次元了。

这一组里智谱清影生成的内容最贴合二次元，但在画面上，Sora 终于表现不错了，可灵 AI 产出的内容也很精美，pixverse 的皮克斯风格也很到位。

网红视频

最后一组测试的是网红视频，网红经济已经成为全球范围内的一大趋势，从内容创作者到品牌营销方，都在探索如何利用短视频来吸引流量和提升影响力，看看大模型在这方面的表现如何。

ChatGPT 生成的提示词如下：

抖音网红在自拍时用创意特效改变背景，从普通街头一瞬间变成梦幻彩虹世界，最后加上她的微笑和俏皮手势。

具体结果及观感如下所示：

1. 腾讯元宝

看来没识别出提示词中的「她」。

2. 字节即梦 AI

没有体现「变」的过程，直接背了个彩虹圆盘在身上。

3. 快手可灵 AI

这个生成效果真的很梦幻。

4. 生数科技 Vidu 1.5

画风似乎有点古早，像是少儿节目预告片开头主持人亮相，然后也没体现街头这个背景。

5. Pixverse

最后的画面定格有点吓人，左边两位女士的面部发生了畸变。

6. 海螺 AI (MiniMax)

这个就很贴切了。画面里的「人」很像人，画风也自然舒服。

7. 智谱清影

开头画面的主角嘴歪了。6 秒的视频都有点诡异。

8. OpenAI Sora

第四秒出现的手，是两只右手，而且上方的那一只手，看起来怪怪的。但主角的笑容很灿烂，主角也非常接近真人，抛开旁边作为画面辅助的那两只手，足以以假乱真了。

这一组里海螺 AI 和可灵 AI 胜出明显，无论对提示词的理解还是画面的审美、真实感都胜出一筹。

结语

在这五个场景测试里，国产视频模型在中文交互条件下，面对非专业用户群体，整体表现是优于 Sora 的。尤其是在创意短片、搞笑短片和幻想短片的创作中，可灵 AI、海螺 AI、即梦 AI 和 Vidu 都展现了出色的创意和视觉效果，能够捕捉幽默点、打造奇幻世界以及呈现独特风格。

在二次元和网红视频的表现上，智谱清影看起来是最贴合二次元风格的画风，而海螺 AI 则在网红视频中特效运用和场景切换上表现了不错的创意能力和视觉效果。

但这毕竟是个有限次数下的不严谨测试，并不能代表各个模型在不同场景中的实际表现，毕竟文生视频模型接下来的重点在于对场景的应用。

智源研究院副院长林咏华最近在采访中提到「经过今年的发展，无论是开源模型，还是闭源模型，2025 年都会出现基于文生图、尤其是文生视频的应用。」

这也就意味着，2025 年视觉模型将从「基础能力的提升」转向「生产场景的比拼」未来的竞争不仅仅是在画质、速度等基础指标上进行比拼，更将在具体应用场景中的表现上展开较量，特别是在广告、娱乐等行业场景里。

随着技术的不断进步，视频生成的成本和速度将逐步降低，市场的门槛也会随之降低，未来，AI 视频生成将更多融入到更加复杂和多元的应用场景中，开启全新的产业竞争。

随着大模型的逐步成熟和应用场景的多样化，如何在具体生产场景中发挥最大效能，将成为未来的关键竞争点。

真正的挑战就要来了。

*头图来源：即梦 AI

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你认为哪家大模型的生成效果最佳？

热点视频

马斯克：少花时间开会做 PPT，多专注自己的产品。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

极客公园

用极客视角，追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号👇

最新文章

具身智能需要什么？一场学术年会的讨论给出了一些思考

每一个孤独的坚持，都是改变世界的能量

特朗普酒店外一辆Cybertruck爆炸，马斯克回应；鱿鱼游戏2首周观看打破奈飞记录；百度25周年李彦宏发全员信 | 极客早知道

张鹏对谈汪华、袁进辉、胡修涵：2025 年，匍匐也要前进，活下来最重要

雷军：小米汽车新年目标 30 万台；Altman 确定 GPT 将有「成人模式」；字节否认砸 70 亿美元买芯片 | 极客早知道

真没想到，AI 夸得我有点不好意思，还能陪我过日子？

大模型时代，没有超级应用，只有超级智能，为什么？

AI Agent 创新突破！从「耍嘴皮」到「看得见」，还能「动手干」

美团外卖推防疲劳，12小时强制下线；苹果 iOS 18 视觉增强默认启用，隐私堪忧；小米宠物员工狗走失，公司急寻 | 极客早知道

我们试了市面上八款视频模型，发现 Sora 确实不太行了

瞄准家庭具身，云鲸开始提速

雷军 31 日进行「跨年直播」；华为：能活下来因为国民热情；「拳皇」30 周年，SNK 成立独立 KOF 工作室 | 极客早知道

本想偷懒才用的 AI，没想到 AI 摸起鱼比我还厉害？！

小米汽车交付超 13 万，雷军：创造奇迹；华为问界 M8 实车曝光；传 iPhone17 标准版终于支持高刷｜极客早知道

重塑人机边界，Soul 正在迈向 AI 社交的未来？

OpenAI 盈利实体变「盈利公司」；智能手表表带含「永久化学物质」；美公司推「神药」延长狗狗一年寿命 | 极客早知道

亲测！豆包+PC，解锁生产力「神器」

脑机接口和 AI，一个硬币的两面

这个「能飞」的机器人，悄悄走进人们的生活

传小米搭 GPU 万卡集群，大力投入 AI；董明珠：年轻人躺平，因为家长太溺爱；微软、OpenAI 再起争执 | 极客早知道

李继刚：当我们说「提示词」时，到底在说什么？

李想：有了冰箱彩电大沙发，还想用 AI 造「硅基家人」

2024 年末决战，AI 视频「卷麻了」

李想：理想汽车大模型进入手机市场；吴柳芳被禁言，抖音：根据法规要求；三星 XR 头显产品或叫「Switch」 | 极客早知道

怒喵李楠的「百镜大战」大实话：别骗自己有技术，抓紧兑现风口

AI 是如何利用语言技巧「操纵」人类的？

AI 的「i」，原来是斜杠青年的「金箍棒」！

OpenAI 或考虑开发人形机器人；小米辟谣「年底大裁员」：缺乏基本常识；宁德时代发「智能底盘」，阿维塔首搭｜极客早知道

相机公司瞄上了线上会议这块大蛋糕

2025 年，AI Agent 将如何变革？

传播学者对谈科普博主：算法造不了网红

传罗永浩转战 AI 硬件，产品「不便宜」；滴滴正式发文治理「冬天臭车」；Meta AI 眼镜将加屏幕 | 极客早知道

从 OpenAI 12 天发布会里，我们看到了行业的四个关键问题

影石刘靖康：在「AI 硬件」的战场上，大 Boss 是手机厂商，不是互联网公司

传苹果研发「智能门铃」；美总统赞成 TikTok 继续运营；汤姆猫推 AI 陪伴机器人，1499 元 | 极客早知道

AI，如何真正助力商家？

短剧出海的秘密：ReeIShort 如何让外国人爱上「霸总」？

传 GPT-5 开发不顺；蔚来第三品牌新车首秀，预售价 14.88 万元；广电总局要求加强微短剧片名审核 | 极客早知道

看看产业里 AI 应用的进展吧，它治愈了我的 AI 价值焦虑

未来十年，谁将主宰科技巅峰？

OpenAI 发布高级推理模型 o3；传雷军亲自重金招募大模型领军人才非事实；小米 YU7 无伪装实车曝光 | 极客早知道

冲刺年底 KPI，车企的心眼子都用在「免息」上了

张一鸣，终于来了

内容创作的「Windows 时代」来了

999 元的 AI 眼镜来了，闪极拉开「百镜大战」序幕

苹果就 AI 与腾讯字节谈判；百度、吉利垫付，极越员工获「N+1」赔偿；余承东称智界要打造年轻人 DreamCar｜极客早知道

大模型落地，苦「最强」久矣

ChatGPT 里走不出具身智能，为什么？

字节发布豆包视觉理解、3D生成等新模型；OpenAI员工迎最多一千万美元套现机会；黑悟空获Steam年度最佳游戏提名|极客早知道

潘乱对谈小宇宙 CEO Kyth：播客是在饱和时代，提供稀缺价值

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉