首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

视频生成模型哪家强？豆包可灵通义海螺全面评测【AI评测】

科技 2024-09-27 15:35 北京

产业互联网第一媒体。产业家

比较贴切的表述是，豆包的视频模型这次的升级，已然将国内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

作者|斗斗

出品|产业家

国内的文生视频领域，也是吃上“细糠”了。

最近，火山引擎宣布豆包大模型正式发布视频生成模型。至此，两大短视频平台在文生视频领域的较量正式开启。

产业家也是在第一时间提前感受了一把。先来几个demo，给你们一个小小的震撼。

很明显，这生成效果并不亚于Sora。

要知道，Sora在初期的宣传和报道中被赋予了很高的期望。然而，至今为止，Sora尚未真正面向普通人群应用，可以说是实实在在的期货。

为了更加客观的展示豆包文生视频模型的真实能力，产业家申请到即梦AI内测版的豆包视频生成-Seaweed模型测试机会，将其与国内几家主流文生视频模型，进行了同一提示词下的生成效果对比，意外看到了豆包文生视频模型的一些新亮点。

一

复杂指令下，足够听话

众所周知，拍摄电影时，导演会指导演员进行多个镜头的拍摄，然后剪辑成连贯的故事。如果一场戏的角色比较多，导演则需要统筹演员的站位、进场时间以及他们之间的对话、动作等。

只有这样，拍摄出来的画面，才会更加流畅。然而，对于当下的文生视频模型而言，大部分只能完成简单指令单一动作。比如只能生成单一的镜头，无法切换，人物动作也较为单一。

这样生成出来的效果，其实和照片差不多。但是在豆包视频生成模型的平台上，有了新的突破。

提示词：一群朋友在餐厅里聚餐，然后其中一人突然提出一个惊喜的计划。

豆包-Seaweed生成的视频中，涉及诸多人物的动作处理。可以发现每个人物的动作表达、面部表情都较为和谐，虽然一些细节有待优化，但整体上已经十分优异。可以实现多主体多动作的画面生成。

海螺AI在整体画面构图、和光的运用方面一如既往的出色。不过画面中的人物几乎都出现了或多或少的畸变。

可灵AI生成视频，总体来看人的动作较为简单，画面也缺乏一些真实性。

能看到，通义万相人物动作较为简单，真实性、自然流畅性相对较弱。

总体来看，豆包视频生成模型还是十分“听话”的，可以遵从复杂的复杂prompt，解锁时序性多拍动作指令与多个主体间的交互能力，指哪儿打哪儿，打开想象力的大门。

二

推拉摇移跟

画面依旧稳定、一致

豆包文生视频模型，还有一个比较特殊的点，即它生成的视频画面整体的故事性很强。

提示词：男子从明亮的室外走进昏暗的室内，镜头切换要自然，光线变化要平滑。

可以发现，在提示词描述的文本之外，其对于周围环境以及画面的细节衔接和过渡很自然。这本身对应的是模型强力的泛化能力。

例如从下面这组提示词生成的画面来看，豆包生成的视频相对更有画面感、更连贯。

提示词：一名女子奔跑在阴暗潮湿的街道上

画面中地面的石板路，路边的房屋，以及奔跑的女人，在运动逻辑、灯光、流畅度上，都表现的十分优异。

可灵生成画面中的女子的肢体发生了不规则的扭曲。

通义万相生成的视频，整体很不错，但在像地面这种细节的效果处理上，还需要进一步强化。

海螺AI有着通义万相一样的问题，仔细发现人物在奔跑时，路面的生成效果并不稳定，且人物和画面之间的衔接度并不自然。

从几组生成的视频不难看出，豆包文生视频模型，在运用镜头语言时，画面较为稳定，可以保证人物、氛围、环境的一致性，以及镜头的自然切换和运镜的自然。

比如基于豆包-Seaweed，我们可以身临其境的感受肌肉男选美现场。

还可以穿越森林，看到远处壮观的雪山。

可以发现，无论镜头怎么推进和切换，视频中的画面风格、人物、灯光、服饰等都依旧有着一致性。

另外一个更加炸裂的点，在于豆包视频生成模型还能实现主体动作和镜头的切换。这么说可能有点难懂，简而言之就是当画面中的人物在运动过程中，可以实现镜头自然切换。

正如下方豆包文生视频模型生成的视频，先是出现一个跟镜头，继而切换到以人为画面主体的跟镜头。

提示词：生成一段视频，要求镜头跟随主角在森林中探险，包括跳跃过溪流和攀爬岩石。

具体来看，生成的视频中，一个空境交代背景环境，切换到另一个以人物为画面主体的推镜头。这种镜头切换手法，也叫“镜头匹配剪辑”。利用了两个镜头中相似的动作或运动方向来平滑地过渡，从而减少视觉上的跳跃感。

这种技巧需要精心的拍摄和编辑，以确保动作的匹配和视觉的连贯性。

但是豆包的视频生成模型，做到了。

对比可灵AI的生成结果来看，画面中并未出现运镜和镜头切换的痕迹。

海螺AI基于这个提示词的生成效果其实各方面效果着实不错，但是在场景切换时，可以发现，其第一个镜头切换的同时，画面左方出现了一个分身，走出了画面，可见场景切换上还需要优化。

通义万相生成的效果，其实较为充分展现了其在语意理解上的优势，尤其是“跳跃过溪流和攀爬岩石”实现了语义一致性，但未实现多个场景、镜头上的切换，且人物流畅度和自然度也有可以优化的空间。

不得不承认的是，豆包视频生成模型确实是有两把刷子。

据官方介绍，这是因为豆包视频生成模型基于 DiT 架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。其全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。

这是豆包视频生成模型独树一帜的技术创新。

三

大场景描绘

光影、镜头、构图美学拉满

在文生视频领域，大场景的生成，由于涉及的元素过度，往往是最容易出现问题的。而经过我们测试，豆包的文生视频模型，也非常不错。

从下面豆包、可灵AI、通义万相以及海螺AI（MiniMax文生视频平台)生成效果对比来看。豆包生成的视频，不仅画面构图、色调十分优异，甚至把清晨湖面的雾气也刻画了出来。

不知道的，还以为是在看《动物世界》。

提示词：清晨，第一缕阳光穿透薄雾，照亮了宁静的森林。一只小鹿在溪边饮水，水波荡漾，反射出金色的光辉。

可灵AI在色调和构图上也可圈可点，但细看鹿的动作连贯性和真实性，就显得有些不足。

通义万相整体观感也不错，语义理解能力较强，例如“反射出金色的光辉”这细节，通义万相刻画的最好，但有点缺乏真实性，更像是动画。

海螺AI的画面，在写实能力上较强。但由于角度和构图的问题，整体来看，主体的灵活性较差，对文本的理解力不足，此外也缺乏一些美感。

其实，豆包视频生成模型，经过剪映、即梦AI等业务场景打磨和持续迭代，在专业级光影布局和色彩调和积累了大量的数据和技术经验，画面视觉呈现上面，可谓是实现了延续，使得豆包处理这种大场景时，既能刻画细节，又极具美感和真实感。

图示：各家视频生成效果表现汇总

四

各种风格、尺寸，都Hold的住

根据介绍能看到，豆包视频生成模型采用的是Transformer深度学习模型的架构，并且进行了优化。这种架构，可以使模型更加强大，泛化能力也会更强。从风格来看，其可以生成3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。

此外，生成的视频可以适应不同设备的屏幕尺寸，包含1:1，3:4，4:3，16:9，9:16，21:9五个比例。无论是电影大屏幕、电视、电脑还是手机，都能观看。

这些视频目前可以被用于电商营销（如产品展示视频）、动画教育（如教学动画）、城市文旅（如旅游宣传视频）、微剧本（如短视频故事）等多种商业用途。

除了商业用途，豆包还能帮助专业的视频创作者和艺术家们在创作过程中节省时间，提供灵感，或者完成一些复杂的视频制作任务。

写在最后‍

最后对豆包的文生视频进行一个总结。

首先它是一个语义大师。它不仅听得懂你的指令，还能理解背后的深层含义，让视频里的每个动作都恰到好处。

还是一个镜头切换高手。在切换镜头时，它能保证故事的流畅和一致性，就像一个无缝连接的叙事大师。

更是一个动态捕捉专家。无论是快速的动作还是炫酷的镜头移动，它都能捕捉得生动活泼，让你仿佛置身于真实世界。

也可以是一个视觉艺术家：它创造的视频不仅清晰逼真，还具有专业的色彩和光影，支持多种风格和尺寸，让你的视觉体验丰富多彩。

比较贴切的表述是，豆包的视频模型这次的升级，已然将国内AI视频的美学境界拔高了一个档次，让AI视频也开始变得更加实用了。

在文章的最后，想要强调的一点是，文中所提到的生成的视频都是基于豆包视频生成模型S 2.0的非会员版本。目前，具备更强多主体互动、多镜头切换一致性能力的豆包视频生成模型-PixelDance，正在紧锣密鼓的内测上线中，或许能给大家带来更多惊喜。

豆包，多少是有点不露锋芒，闷声干大事了。

最新视频号内容推荐

▼

▼

产业AI大模型

《财务大模型，产业路向何方？》

《沸腾的大模型：谁在成为主角？》

《大模型落地金融业，想象力在哪？|产业特稿》

《重新理解百度智能云：写在大模型开放后的24小时》

《一所南方学校，遇上AI的60天》

《金蝶，「起舞」在大模型时代》

产业数字化

《数字化大势下，科创板IPO的“紧箍咒”》

《透视京东，和隐藏起来的200个上升密码》

《云上管车背后：透视数字化时代的企业内功》

《透视云测试：技术、产业、降本增效下的数字化之战》

产业SaaS

《2021年SaaS行业八大趋势|盘点》

《美团阿里鏖战，餐饮 SaaS无「终局」》

《金蝶腾「云」，产业互联「结网」》

《腾讯加「杠杆」，SaaS开团战》

产业供应链

《产业互联网时代，谁在重写供应链？》

《牵手国资背后，再看苏宁的零售产业边界》

产业硬科技

《云从「敲门」科创板》

《物联网，一场上云的巨型战役》

《华为：用鸿蒙HarmonyOS2.0讲的新故事》

《国产芯片战场：掣肘、决心和看得见的未来十年》

© 往期回顾

▼

产业家网全新上线

© THE END

本文由产业家出品，未经许可，请勿转载。

/

欢迎爆料

▼

产业家报道联系微信号：15201450756

http://mp.weixin.qq.com/s?__biz=MzIwMTUyNjcxNw==&mid=2647723228&idx=1&sn=6a21ccaf30857aa96e0e9ee10af5c2ae

专注深度产业互联网内容

最新文章

写在周亚辉满分点评背后：中国企业的AI想象力到底有多大？

开源AI背后的商业密码

消费坚韧回暖背后：谁来解决供应链资金的新卡点？

国产大模型独角兽，困在光环里

中国教育产业数字化，最小“触点”在哪里？

大航海时代，比亚迪做对了什么？

银河通用获5亿元战略融资；阿里宣布整合国内与海外电商；中央空管委即将在六个城市开展eVTOL试点

大厂财报相继出炉，释放了4个关于AI云的信号

智算中心太“多”，大模型不够用了

一家餐饮企业，「闯入」AI阵地

九识智能获1亿美元B1轮融资；小马智行申请美国IPO；最高人民法院发布国家级法律AI基础设施“法信法律基座大模型

中小企业的经济账：如何在数智化浪潮中长效稳赢？

字节AI为何凶猛：重启App工厂，争抢“豆包”，连模型也要赛马

Gartner解读2024年中国AI技术趋势：复合式AI将引领产业未来

千寻智能获天使+轮融资；Dmall多点数智向港交所递交招股书；首批大模型系统安全能力验证结果正式发布

AI大模型落地，为什么是央国企先行？

轻舟智航获数亿元C+轮融资；文远知行纳斯达克挂牌上市；全国数据标准化技术委员会获批成立

e签宝，奔向下一个十年

8年云计算销售，决定去做自媒体

从点到链：中国产业带进化在2024

a16z：AI楔子将如何帮助初创公司超越现有企业？

GPU，泡沫破裂前夜

滴滴自动驾驶获C轮融资；华为原生鸿蒙操作系统正式发布；北京新增 12 款已完成备案的生成式人工智能服务

中国自动驾驶时代记：技术、理想和“真经路”｜产业家特稿

大模型“软饭硬吃”

AI时代，我们应该如何看待“安全”新命题？

星动纪元获近3亿元Pre-A融资；阿里翻译大模型Marco发布；工信部就《人工智能办公大模型系统技术要求》征求意见

从融资烧钱到商业落地：中国AI大模型步入「实战期」

万字见闻｜SaaStr Annual 归来，AI 已来，SaaS 未死，效率成新常态

雪花啤酒：以AI数智化重新书写啤酒产业

深势科技获数亿元融资；SAP大中华区被合并；《关于促进数据产业高质量发展的指导意见》公开征求意见

诺奖花落AI领军者：产业AI变革时代来了？

深度｜李飞飞：我不知道什么是AGI

卫瓴科技，驶向「协同CRM」深水区

AI应用，流量在哪？

视频生成模型哪家强？豆包可灵通义海螺全面评测【AI评测】

AI“侵袭”中文互联网

AI会议时代：企业如何搭上快车？

人类离AGI时代，又近了18个月

百度智能云客悦，进击在AI时代

立芯获超2亿元B轮融资；阿里史上最大规模开源发布；《人工智能生成合成内容标识办法(征求意见稿)》公开征求意见

中国CRM，步入「长期主义」河流

大模型的to B围城

声网十年：《读懂实时互动》背后RTE的现在与未来

智算中心，建设热潮的尽头是产业运营

帆软，再攀「一座山」

企业如何“向内求”，挖出更多净利润？

“冰山之下”：谁在成为车企的真正智能助手？

智谱AI获新一轮融资；腾讯推出混元Turbo；《轻工业数字化转型实施方案(征求意见稿)》公开征求意见

耶鲁博士「闯关记」：如何带领一家新锐生物公司数字进化？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉