实测国产视频生成大模型一个人“拍”一部剧？

科技 2024-10-08 17:14 上海

测试vidu、清影、可灵、即梦，视频生成效果如开盲盒

作者／ IT时报记者沈毅斌‍‍‍‍

编辑／潘少颖孙妍

“AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就可能拍完一部剧。”上海大学温哥华电影学院副院长陈晓达曾向《IT时报》记者讲述视频生成大模型对影视行业的影响。

今年七月，国产视频生成大模型迎来爆发式增长。生数科技打造的视频大模型Vidu上线；智谱AI正式发布视频生成大模型“清影”；快手可灵AI、抖音即梦AI纷纷正式上线网页端……

在火热的国产视频生成大模型赛道，究竟谁家效果更好，最有可能“取代”演员？《IT时报》记者选取Vidu、清影、可灵、即梦四款国产头部视频生成大模型，采用统一的电影写实设定和提示词进行实测。

整体情况

●Vidu：页面主体十分简洁，左侧为输入框，可选择文本输入或图片输入。左上角的“设置”有写实和动画两种生成风格，生成的视频时长为4秒和8秒。需要注意的是，8秒生成时长需要付费订阅。右侧为输出框，用户可以看到此前的生成记录，并进行重新编辑，让视频更加完善。

●清影：作为“智谱清言”的一项功能，清影位于“智能体”功能键中，同样可以选择文生视频和图生视频。界面分为四个部分，左侧是功能模块、历史记录和视频预览。右侧是控制台，相比Vidu，清影拥有更丰富的参数设定，不仅可以选择3D卡通、油画、电影感等视频风格，还能选择情感氛围和运镜方式，实现更好的画面效果。

●可灵：除了文本输入框，可灵还有更为详细的参数调整，用户可以调整生成模式、生成时长、视频比例。最具特色的是创意想象力和创意相关性调整，初始状态参数为0.5，越靠近1与文本关联性越强，反之越趋近0创意性越强。在运镜方面，可灵拥有10种运镜方式，同时还可以选择不希望出现的内容，精准控制生成内容。

●即梦：即梦界面具备生成模式、生成时长、视频比例等多种调整功能。在右侧预览部分，可对生成视频进行延长时长、对口型、补帧、提升分辨率等调整，但都属于会员功能。即梦与可灵的区别在于运镜调整，采用上下左右、旋转、变焦等方式调整参数，可以更精细地调度镜头，同时还能控制镜头运动速度，达到想要效果。

场景一：城市多场景

提示词：在未来城市中，人形机器人有的在清扫街道，有的在家为居民做早餐，还有的在商场担任导购。

测试结果：即梦>可灵>Vidu>清影

●Vidu：《IT时报》记者输入提示词后，Vidu仅用1分钟左右就生成了一条4秒的视频，是四款大模型中最快的。从生成效果来看，画面符合写实设定，一开始展示出在街道上行走的人形机器人，一秒后切换为室内场景，展示出做早餐和商场指引的场景，每个场景的衔接都是直接切换。尽管Vidu可以实现多场景生成，但与文本关联性并不密切。第一个提示词中的街道场景出现的人形机器人只是在行走，并未清扫街道。而后两个场景都是真人完成的动作，并未出现“主角”人形机器人。

●清影：在输入提示词后，清影需要等待5—8分钟才完成生成，尽管选择写实风格，但生成画面依旧偏向3D动画。一个镜头是人形机器人用吸尘器快速清扫着街道，主体清晰背景却十分模糊。随着画面的快速运动，场景也从街道转为室内，人形机器人开始做早餐，但无论是背景还是主体，都较为模糊，尤其是人形机器人，已经发生严重畸变。最后进入单一场景，画面才变得清晰，人形机器人站在镜头前操控着数字屏幕导购。清影虽然可以理解文字意思，且在场景衔接处加入了过渡和转场，但模糊难以避免，畸变情况较为严重。

●可灵：在场景生成中，可灵并没有生成多个画面，仅一个未来商业场景就将清扫街道和导购两个任务涵盖其中，多个人形机器人穿梭在街道，执行不同的任务。由于做早餐属于室内场景，在视频中没能体现出来。但可灵生成的场景写实感较强，更符合记者所设想的画面，清晰度和流畅度也是最好的。不过，在第三秒时，画面中的一个人形机器人突然分裂成两个，细节还需要改进。

●即梦：从整体画面来看，即梦生成的视频偏向3D动画，同样以一个场景进行展现。画面中心是多个人形机器人利用清洁工具清扫街道；右侧是一个人形机器人与人类对话，完成导购指引；旁边的早餐铺虽不起眼，但能看出有机器人在做早餐。即梦也是所有大模型中多场景能力展现最好的，但画面动作幅度不大，更像是动图的感觉。

场景二：人物动作运镜

提示词：两位武侠在竹林间比武，镜头由远及近逐渐推至人物面部。

测试结果：清影>Vidu>可灵>即梦

●Vidu：Vidu能理解并展现“竹林”与“武侠”两个关键词，同时保持较强的写实感，生成的人物贴近真人。但在动作处理方面，表现一般，最直观的是两位武侠在比武过程中，一会是拳脚比试，一会手中又出现宝剑。镜头也没有由远及近推拉运动，直到最后一帧突然出现一张人物脸部特写，十分突兀。无论是画面精细程度还是连贯性，远不及场景一。

●清影：在测试的四款大模型中，清影的人物和场景畸变最为严重，从视频开头到结尾，两位武侠的动作幅度虽大，但十分模糊，面部轮廓也没能呈现出来，直到最后特写定格才快速生成出一张清晰的人脸。但在镜头运动方面，清影做到了由远及近推拉运动。记者重新生成一条同样的视频并加上旋转镜头后，清影依旧可以展现很强的运镜效果。

●可灵：可灵的画面采用俯拍视角，竹林间，两位身穿盔甲的士兵扭打在一起，看不清面部，也没有理解“武侠”一词。人物动作以推搡为主，不及前两家大模型。运镜方面，可灵生成的视频完全没有镜头运动，从始至终都保持一个角度和景别，让视频观赏性大大减弱。

●即梦：即梦注重人物面部呈现，视频中两位武侠紧贴在一起，脸部始终清晰，长袍束腰的服饰也符合中国武侠的形象。但人物以静止为主，直到最后才做出扭头和挥手的动作，没有比武打斗动作，也没有镜头运动。

场景三：动物拟人

提示词：一只参加奥运会的熊猫，完成体操项目比赛。

测试结果：Vidu>可灵>即梦>清影

●Vidu：一只与《功夫熊猫》非常相似、身着奥运五环红色背心的熊猫站在鞍马上举起上臂欢呼，随后弯下腰跳下鞍马，这是Vidu在场景三中生成的画面。与之前不同的是，Vidu在此轮测试中采用3D卡通风格，更符合动物拟人形象。动作方面符合逻辑且没有出现重影、卡顿，是目前测试中效果最佳的视频。

●清影：用同一提示词生成两条视频后，清影没能呈现出清晰的熊猫形象。视频中位于鞍马上的熊猫一直背对用户，做出一个翻滚动作后，黑白配色便开始错乱，重影、模糊等问题明显，背景中的观众也会随着画面抖动。尽管只有6秒时长，但每一个画面都存在形变。

●可灵：可灵依旧保持写实风格，熊猫以动物形象呈现，没有拟人效果。它对着镜头缓慢爬行，随后伸个懒腰便坐了下来，整体动作行云流水，并未出现形变、重影，也符合熊猫的行为逻辑。不过，在体操表现上不足，除了一块蓝色的体操垫，便再无体操元素。虽然整体生成视频与提示词的关联性不强，但画面质量、动作流畅度在四款大模型中较好。

●即梦：画面单一、动作幅度小是即梦生成视频的特点，在场景三中，即梦依旧没能改变这一现象。画面中的熊猫保持动物形态用四足站在鞍马上，但在运动过程中，熊猫增加了一条腿，对熊猫的物理运动方式不能完全理解。

记者手记

生成效果如同“开盲盒”

动作流畅、符合逻辑、多种运镜等已经成为各家视频生成大模型重点宣传的功能，但从《IT时报》记者测试来看，视频生成效果与想象还有一定差距，每一条视频可能存在意想不到的错误，类似“开盲盒”。

对于新人用户来说，不需要输入非常复杂的提示词，大模型自动提示而生成的效果最佳。若输入提示词，也并非越复杂越好，而是需要拆分成一个个短句进行描述，单画面生成效果最佳。此外，生成之后还需要进行优化调整，以此来减少失误率，提升视频质量。

值得一提的是，视频生成需要花费较长时间，一条6秒的视频生成大约需要5分钟，且每次改进都需要重新生成。

尽管视频生成大模型降低了入局门槛，但想要实现一人“拍”一部剧，还需要花费大量时间和精力。

排版／季嘉颖

图片／ Vidu 可灵清影即梦壹图网

来源／《IT时报》公众号vittimes

E N D

大家都在看

请加「星标」不错过我们

http://mp.weixin.qq.com/s?__biz=MjM5MjM2MzEyNQ==&mid=2651591293&idx=2&sn=4f8a2325be80f837ad610fde61ee2b48

IT时报

做报纸，也懂互联网，这里是《IT时报》(IT Times)微信版。作为上海一份IT类周报的新媒体产品，这里汇聚了关注全球IT业的魔都资深IT记者。我们追求原创独家新锐，以及读视听多种表达方式。ps. 使用IT产品有问题？留言与编辑互动。

最新文章

上海攀登人民城市“智慧新高点”

人民城市有未来：以科技为翼为上海筑梦

双11怎么买到全网最低价？

人民城市有智慧：人工智能高地传统制造更新

地下车库“变形记”：地下不失联照明会“呼吸”

人民城市有韧性：用智慧为数字上海“强筋壮骨”

远程引爆手机电池？三分钟陌生人开走你的车？

人民城市有速度：智云之上城市蝶变

小屏手机又要火了

人民城市有温度：当好沪上百姓的“服务员”

迈向物流强国的路上，如何做到“一个也不能少”？

会员年年涨权益年年少广告年年多

双11什么值得买？学习机、洗地机、办公本、闺蜜机销冠榜

死刑！高空抛物砸死路人 AI监控能否根治？

每人300万元！49位青年科学家获第六届“科学探索奖”

国产大模型比落地速度科大讯飞交出一年答卷

上海接住“华为镇”：3万人将流入，周边房租飙升一两千

上海掀起“以旧换新”消费潮适老化产品走俏

新华社：拼多多助力“中国制造”高质量出海

全球数商大会发布多项成果！台风预测、开店贷款背后的数据流动

刚刚！全球第三大移动操作系统问世三分天下！国产手机告别安卓

小区的一场“智变”：电梯变聪明，火灾会告警，门禁远程开……

“退货率”成双11新挑战

马斯克遭抱团反对手机直连星链之战白热化

在这所村小，多多农耕博物馆成“团宠”，孩子关心粮食与蔬菜

“视频ChatGPT时代”来了？Meta挑战霸主Sora

史上最漫长的双11

股市上演“速度与激情”

谁让你的视频变“糊”？三问视频网站“降本之痛”

“史上最早双11”怎么买到最低价？政府补贴别错过

75年，7个瞬间，勾勒一条中国通信坐标轴

AR、XR到底怎么分清？

最新进展！华为纯血鸿蒙公测报名超百万，上架1.3万应用，打造开源鸿蒙样板

从美国运营商裁员看电信业的困境和希望

“智云上海”再获国际大奖全球首创“全城上云”城市级云网平台

商汤下一个机器人是什么？双11销冠元萝卜再发四合一AI下棋机器人

75年，一个邮包翻过了多少座山，一辆摩托车送出了多少件快递

如何接住90后00后的第一次人生红利？

今天，特斯拉发布Robotaxi，国产“萝卜们”站在商业化前夜

止痒神器、宠物机器人、口袋相机……TechG的接地气新物种

老人每月被莫名扣费罪魁祸首竟是深藏手机锁屏杂志的广告