十二月上旬,AIGC圈子复现了年初Sora曝光时的热闹:
一方面,OpenAI憋了大半年的Sora终于开放使用,服务器随即被挤爆宕机;而在另一边,国产视频模型也开始高强度更新产出。比如快手的可灵AI,现在就已经进化到可以拿来拍电影的阶段了。
月初,由可灵牵头的国内首个“AIGC导演共创计划”,对外发布了首批总共9部短片,快手搜这个计划名字就都能看。
9部片子来自圈内9位知名导演和AIGC作者协作,导演组这边,像是担任过《英雄本色》、《卧虎藏龙》美术指导的叶锦添,《海洋天堂》和《北京遇上西雅图》系列导演薛晓路,风格各异但大咖确实不少。
这些片子有个共同点:都是AI做的——都是拿可灵AI视频模型生成的,正片时长五六分钟左右。
放在影视行业,这就只是一部微电影的体量,或者两三集时下大火的短剧时长,内容上基本做到了剧情连贯,但画面部分槽点还是颇多。
不过这些并不重要,重要的是所有片子100%由AI制作,虽然后续访谈中导演们都谈到了“确实需要反复地生成和调优”。
AI拍电影,现在终于不是噱头了。
AIGC的一大步
角色、故事,然后做出音视频和表演等等要素,构成了我们认知里的“电影”,不管大制作还是小成本,微电影还是好莱坞。
首先的要求就是,角色得确定,故事要连贯。传统影视制作要剧本、选角,动画电影要原画设计,基本定下来之后再开工。
但“连贯性”和“确定性”,对于AI生成视频模型来说,一直都是个巨大的难题。几秒钟一个场景或许还行,一旦时间长了、提示词复杂场景比较多,画面主体、环境等等很可能就“千变万化”,圆的变成了方的,下一个场景也许又变回去了。
并且,这种变化在“黑箱”中,几乎不可控。
今年七月份,蓝媒汇受邀参加了一场头部短剧团队的媒体沟通会,AI生成视频的在话题会上聊得非常热闹。
从形式上看,短剧本身的体量决定了行业的每部作品都不会也不能是大制作,所以如果能用AI直接生成内容,理论上会带来大幅度的降本增效。
但一线短剧从业者,在当时给出了暂时性的否定回答:AIGC目前还不太能用,原因概括就是“质价比不高”。
首先,目前AI视频模型的调用成本还比较高,这个成本是相对于生成结果来说的。
假设找专业团队做后期特效等内容是花一份钱办一份事,那么,同样的需求让AI来做,结果很可能是花了半份钱,却只办了不到1/10的事,且后面还要多次返工,劳神费力、得不偿失。
不好用导致的不划算,成了AI视频生成模型,在短剧这个几乎是目前最小单位的影视作品赛道中,形成供需关系的阻力:技术有了但尚未形成生产力。
会上主理人大胆做了一个预判,说“至少半年”。
五个月过后,可灵还真就掏出来了这种生产力,至少是生产力的雏形。
类比拍电影,就是主角、场景什么的要素都能固定下来了,能拍成作品了,以前的AIGC是没办法做出这种长时间的连贯性和一致性的。
好在哪里?差在哪里?
具体看看影片,拿时长最长的一部说下细节:
开头这段讲故事的起因,小蓝和父母通过电脑视频通话,了解到父母正在家乡准备收麦子,引出后面派机器人过去帮忙这么一套情节。
剧情逻辑本身不用在意,这个画面确实有些亮点。
首先,第一个镜头中固定位置的电脑很稳定,包括背部的苹果logo都没有随着时间推进出现变化,AI显然是理解了“电脑”在场景里是个固定物体的意思,视频通话不影响电脑外观。
人物方面,可以看到小蓝和父母,三个人嘴部的动作和音频内容大体是能对上的,至少开闭时间正确。
导演贾樟柯在访谈里专门提了这个点,说用到了可灵AI新推出的“对口型”功能,并挑战了“对口型”功能讲方言的能力,这个功能让用户可以在生成人物视频后上传音频,再将音频内容与视频人物嘴型同步,以满足影视创作中人物对白的基本需要。
而且,这里导演用的还是方言,山西汾阳话。
当然,小问题也不是没有,后面这段画面在短时间内切换了三个场景,小镇里找路、搭车,最后找到麦田。
在这三个场景的切换中,人物主体虽然保持了大面上的一致,都是人脸+白色机械为主体的男性机器人,但不管是面部细节还是白色机体的构造,三个场景明显细看都能看出是三个完全不同的“角色”。
这就是前面提到的“一致性”问题,不管是三段内容分别生成,还是同一段提示词写了三个场景切换,画面主体人物依然出现了细节上的不可控。
用影视的标准去评价,这当然是有问题,但对于AIGC来说,这种程度的一致性保持,考虑到全片五分多钟的时长,其实还算比较不错。
这部片子的最初设计中,机器人的设定是下图这个更为抽象的纯机器形象,更据称“更加难以把控画面的一致性”,AIGC作者Jade Wu的解决办法就是换成了一个带有人像的半机器人设计。也就是说,目前的画面状态实际上已经费了一番功夫去调整。
前段时间,OpenAI 的视频王炸Sora对外放出,从大量实测画面来看,Sora在画面稳定性和一致性上的独属t0应该是毫无疑问的。
而且很值得注意的点是,不少Sora生成的拟真画风视频中,画面几乎看不到很浓的“AI味”,而是有种世界模型概念下物理模拟出的实拍感。
时长方面,可灵等目前分钟级以上的能力已经非常可观,下一步要期待的,还是模型生成的画面能否去掉AI味,做到“以假乱真”。
技术层面的有限差距和追进过程,反而是值得期待的。
Lanmeih/今日话题
你用过AI生成视频吗?体验如何?