wuhu专访
先来看支片子。
感觉怎么样?
那如果我现在告诉你:这是由1个人在20小时之内独立完成的,你又会怎么想?
……
短片《遥远地球之歌》由北京大学AI学者陈刘芳制作,从剧本、分镜到画面剪辑,全部使用AI生成技术来完成。
原本可能几周甚至数月的工作量,直接缩短到了20个小时,这不禁让人感叹AI的强大。
事实上,从年初爆火的ChatGPT,到每次迭代都会刷新人们认知的Midjourney,网络上早已出现了大批的AIGC作品,这似乎证明着曾独属于人类的创造力大门已经被AI叩响。
人类能否驯化AI?
AI是解放人类双手,还是取代人类?
AI飞速发展的未来是怎样的?
我们到底应该用什么样的态度,去对待它?
......
曾有大量的影视作品试图描绘一个那样的未来,而其中的情景似乎也正在现实中上演。
AI,真的是人类的敌人吗?
本期【动画教练】导师陈刘芳借这支短片对此进行了大胆的尝试,她也许能够回答这些问题。
wuhu专访421期
采编 | 山茶茶
童年的哆啦A梦
为她埋下了研究AI的种子
2021年,陈刘芳因为工作需要,开始探索能够批量创作内容的新方法。
她当时找到了两个大方向,其一是通过编辑不同的角色表情、动作、服装等进行排列组合生成,其二就是人工智能方法,如扩散模型或VQGAN实现自动生成,这是通过CLIP引导扩散模型生成的AI版《飞鸟集》。
出于对AI的兴趣,当时陈刘芳选择了人工智能艺术作为硕士毕业论文的主要研究方向。
“我本身就对艺术与科技的结合,对人工智能很感兴趣,特别喜欢一本叫《数字生命》的小说,小时候也会梦想拥有自己的哆啦A梦,这些都为我后续学习和研究AI埋下了种子。”
与此同时,国际上一些优质AI作品的出现,也让陈刘芳更加确信人工智能在艺术领域存在巨大的潜力。
让她印象深刻的一部片子,是Runway首届人工智能电影节上的《Generation》。这部作品以真人舞蹈视频为基础,利用了Disco Diffusion完成了图像生成。
“我记得当时第一次看到它的时候,真的被它带来的视觉力量震撼到了,非常惊艳。它展示了人工智能在为动画创作提供崭新的思路和技术上的可能,相信未来人工智能在动画创作领域还有很大的潜力可以继续挖掘。”
AI制片该如何落地?
正式着手准备《遥远地球之歌》,是从8月初开始的。陈刘芳已经不是第一次制作AI全流程动画,基于过去的制片经验,她总结出了以下几个难点:
难点一:建立高效的AI制片流程
前文中提及的20个小时制片时间,包括了从分镜到画面生成、镜头生成和剪辑的时间,但不包含前期准备工作。如果问及资料搜集环节,那就要追溯到更远的时间点。
而以AI为核心制片,也意味着此次项目中没有“前期设计”与“后期渲染”等环节,普通制片流程并不适用。
难点二:使AI输出结果更加可控
AI作为本次的创作核心,其实是最不可控的部分。事实上,如果没有经过针对性的海量训练,目前的AI还无法给出可控的回答。
而海量训练意味着前期的大量人力物力投入,例如全流程人工筛选过滤,这也是颇为耗时的一环。
难点三:AI如何制作高质量动画
虽然目前有些AI已经具备视频制作能力,但镜头语言相对单调。若想要高质量输出,则大多限于提供现成模板的情况下。
想要从0到1去制作原创动画,每个镜头的节奏、绘画风格、表现形式等还必须通过真人导演的把控。
为了更深入地了解AIGC制片流程,我们邀请到了陈刘芳本人为大家拆解《遥远地球之歌》的制作流程。
上百个问题+604张图像+196个视频
=2分钟动画
首先来看一下《遥远地球之歌》的完整制片流程。
STEP1:资料搜集+AI脚本化
由于《遥远地球之歌》原著是科幻作家克拉克的短篇小说,陈刘芳提前整理好了原著的各个发表版本。
对于脚本创作阶段用到的语言类AI,她选择了Claude。
具体流程是:根据原著快速梳理世界观、人物和关键情节→索引故事中的独特元素→分解场景→整理分镜头
<上下滑动查看流程示意图>
这阶段的主要问题在于,语言类AI无法100%对接上创作者的思路,而它的一些描述也并不具有视频表现力。
因此陈刘芳总结了几个沟通的技巧,在这里分享给大家:
设定AI的角色身份,比如导演、编剧、Prompt工程师等,让它明确自己的定位和目标。
提供明确的、有针对性的创作要求,简明扼要。
引导对话的方向,根据需求进行调整,必要提供案例让它进行学习。
最重要的是,作为导演,你需要保证清晰认知自己的创作想法,并且发挥主导人的审美把控作用。
“成功与语言类AI合作的关键在于,我们要非常清楚自己的创作目标和流程,对AI的输出进行持续引导和反馈优化,这样才能获得高质量的结果,发挥AI的最大价值。”
Step2:AI图像生成
在这里,陈刘芳首先利用Claude生成了较为详尽的文本描述,然后再进行提取和筛选,作为视觉关键词。
需要注意的是,这个步骤中人为筛选和提炼是非常必要的环节,大概占了前期工作时间的20%左右,因为过于冗长的描述只会让图像类AI更加难以抓住核心需求。
而对于图形类AI,陈刘芳则选用了Midjourney。
其实市面上利用Midjourney生成的AIGC作品不少,除却部分专业作品,好像AI制图的门槛也不是很高,只要会上网、有一定英文水平,哪怕零画画基础也能生成好看的图像。
但如果想要正式用于商业项目制作中,达到预期效果,那就需要大量Prompt测试,来精准定义你想要的风格了。
提一个问题:让你做一部科幻短片的话,你要怎么和AI描述它?
如实地说:Generate sci-fi type pictures(生成科幻类型画面)?
这或许能生成还不错的图像,但类似的空泛描述是绝对不能出现在商业项目里的。
以下是陈刘芳用到的Prompt模板:
_____,expansive and intimate visual storytelling,epic sci-fi vision,Kodak Vision3 500T --ar 21:9 --style raw --v 5.2
模板每个部分含义如下:
expansive and intimate visual storytelling:宏大而细腻的视觉叙事风
epic sci-fi vision:科幻视觉风格
style of Interstellar movie cinematography:模拟电影《星际穿越》的摄影风格
Kodak Vision3 500T:模拟柯达Vision3 500T电影胶片的色调和质感
--ar 21:9:生成接近电影画面宽高比的图像
--style raw:原生风格,减少Midjourney默认处理的影响
--v 5.2:使用5.2版本的Midjourney模型
在此过程中,陈刘芳在《遥远地球之歌》中一共生成了604张图像,通过不断调整提示词+人工筛选,来进一步靠近想象中的效果。
Midjourney生成的部分画面
可以看出,与图形类AI的对话仍是个相对耗时的过程,并且人类仍然占据着创作中的主导地位。
“我认为AIGC制片中,人类的审美能力和讲故事能力是最重要的。现在的AIGC工具确实很方便,但要真正发挥其价值,人类创作者的主导作用是不可或缺的。在应用中积累相关的审美和讲故事经验,才能更好地驾驭这项新技术。”
Step3:视频生成
陈刘芳选择在Runway中完成视频的生成,目前它提供给用户三种方式生成视频,分别是:
Gen1-通过视频生成视频
Gen2-通过文字/图像引导生成视频
FI-基于连续图像生成插帧视频
《遥远地球之歌》是基于Gen2来完成的。
简单地说,就是拖入在Midjourney生成的图像,每10张-20张画面做一次可用镜头的筛选,最后批量导出。
但说起来容易做起来难。
一个难点是对于镜头运动参数的控制。陈刘芳告诉我们,现在runway已经推出了导演模式,可以通过参数来控制镜头移动的方向、速度等,有导演、分镜相关经验的朋友可以更好地驾驭它。
另一个难点是角色的连贯性。目前比较靠谱的方法,就是ControlNet搭配Ip adapter,通过一张图片引导生成一个角色的多角度、多场景的变化等等。动画人可以关注的类似方法还有Roop,styledrop等等。
“我们在使用AI进行创作时,可控性和工作流长期都是大家的关注的点。但随着技术的成熟,我们半年之前苦恼的许多问题,比如视频生成,画面抖动等,这些都在被逐渐攻克。”
Step4:剪辑后期
基于前期Claude生成的分镜,陈刘芳使用了DaVinci来进行剪辑。
DaVinci Resolve 剪辑>调色>AE后期>加字幕>输出
但由于前期图像生成阶段,并没有对Midjourney的色彩倾向进行严格限制,所以要额外进行调色处理。
之后就是传统流程上的声画同步、调整镜头速度和运动方向等等操作,最后通过AE制作了一组特效字。
至此,《遥远地球之歌》的制作已经完成。
那么我们来算一笔账。
陈刘芳老师在制作过程中,使用的是免费版Claude,但如果频繁使用的话,专业版费用是一个月20美元。
Midjourney目前有3个等级的订阅费用,陈刘芳选择了1个月30美元的付费标准。
Runaway上,每1000积分能生成200秒的视频,《遥远地球之歌》用了700积分左右,大概是7美元。
按照现在的汇率,也就是416.19元。
从这个角度上看,对比传统流程,AIGC制片还是具备一定优势的。尤其是对于很多想讲故事的朋友们来说,可以帮助我们快速把想法视觉化。并且也许随着相关技术的成熟,未来画面质量得到提升的同时,成本也会越来越低。
AI真的是高性价比的代名词么?
其实看完整个制作流程,我们可以很直观地感觉到与AI沟通的过程还是非常繁琐,并且存在不可控性质的。
以目前的水平来看,离“AI解放人类双手”仍然有着很长一段距离。
而加入商业工作流就更难了,想高效且保质保量完成需求,前期的大量准备工作与人工筛选也是一个问题。
所以我们与陈刘芳本人进行了讨论。
Q1
就目前的AI水平而言,它能否在商业项目中保持高质量、高性价比的优势呢?
我最近也做了几个商业广告项目的尝试,确实不同品牌和项目的需求千差万别。有的客户希望看到非常新颖、有想象力的效果,这时我们要发挥AI的特长,但同时要充分揣摩品牌调性,及时沟通确保客户满意。
另一类客户对品牌广告的要求更为具体和严格,这时我们需要拿其他技术手段来辅助,在AI生成的基础上进行后期调整,提高图片的可控性和质量,才能达到客户的标准要求。当某个技术路线并不适合实现目标时,要及时做沟通和调整。
要在商业项目中发挥AI的优势,我们既要能够驾驭好各类AI工具,又要掌握后期处理等相关技能。更关键的是要根据项目类型灵活选用合适的技术路线。在整个流程中跟客户多沟通也很重要。
我认为未来AI要真正落地商业应用,需要克服的挑战还有很多。我们要善于通过人机合作的创作模式,发挥协同的价值,这是也是大势所趋。
Q2
提到AI就无法避开一个尖锐的话题,那就是AI是否会取代人类艺术家。您怎么看?
我个人来看,目前AI还比较难完全取代人类艺术家,因为人类艺术家注重的是从自己的经验和灵感出发,发挥想象力和创造力,作品充满艺术性。当前AI更多是提供一些新的视角,或者实现些需求量比较大、规模化的内容生成。
但现在已经看到一些“人工智能艺术家”的出现,比如创作了“芭本海默”和“AI版指环王预告片“的Caleb Ward,他的作品都是一个人一台电脑制作的,视听语言和剪辑节奏做得也非常的棒。这些艺术家们结合了人类的审美和输入,以及AI的生成能力,创作出了独特的作品,给许多灵感的落地供了很好的技术支持。
最近还来到一条很可爱的小片子叫《Glitch》,作者是 Jeff Synthesized,讲了小镇上的发生了电力异常,大家都在猜测是什么原因,我们的小主人公在家里发现了一神奇的小怪物……
这个片子的镜头语言,分镜设计,角色表演非常的成熟,是那种差不多是你会误以为迪士尼偷跑电影电影动画的程度。
有句话大家可能经常会听到“人们总是高估一项科技所带来的短期效益,却又低估它的长期影响”,这就是阿玛拉定律。世界知名 IT 研究咨询公司 Gartner 的研究报告中,就将生成式人工智能预测为未来几年主要战略技术趋势之一。
根据新兴技术成熟度曲线来看,生成式人工智能正在从技术萌芽期向期望膨胀期过渡,预计在未来2到5年内将达到生产成熟期。这意味着AIGC技术将在短期内迅速发展,改变包括动画创作在内的许多行业的运作方式。很多企业和研究机构正在加大投入,研发更先进的生成式人工智能技术,并探索将其应用于艺术创作上的可能性。
最近我也通过AnimateDiff做了一组小实验,比如这组是直接通过文字来生成:
而下面这组是AnimateDiff+IP Adapter生成的效果,尽管这项技术在动画表演,画面精度,角色一致性方面有许多地方需要提升。
再给大家分享一下2022年上半年的时候,我测试AI动画达到的效果。
这便是一年半左右的时间AI技术进步带来的直观提升。
尽管在国内,它对我们当前动画行业得影响还比较有限,但从长远来看,AI很可能会改变传统的内容生产方式。动画和影视正在融合,拍摄+AI可能会成为未来动画制作的关键流程之一。这方面已经有不少先例产生,比如Corridor Crew团队推出的《剪刀石头布》动画就是这样的例子,国内也有许多动画公司和影视公司在实践这样的流程。
我之前在另外一篇发表在wuhu上的文章中关于电影工业化的发展中也提到了,未来可能会出现更多完全由AI自主创作的动画、电影等艺术内容,这种可能性是存在的。在这块Fablestudio结合了LLM、训练扩散模型和AI Agents模拟的能力,生成了全新的《南方公园》剧集,就是这样的实例。
《南方公园》剧集生成流程
总之,技术进步总会对传统的创作模式带来不同程度的冲击与融合。大家需要保持学习与探索的心态,在巨大的变化来临前,我们不应该简单地抵制变革或者是盲目追捧。
一个简单的方式就是以终为始,来思考自己的作品中是否需要类似的技术来实现合适的效果。如果有,那么可以适当的了解下自己领域的一些AI技术的发展,我相信大概率还是会有帮助的。
Q3
在本期动画教练中,您会给大家带来哪些知识点?
在这次的动画教练中,我准备给大家带来以下几个知识点:
第一, 用具体的商业项目案例,分享如何应用AI来完成一个更复杂的商业项目制作,帮助大家建立高效的AI制片流程;
第二,展示使用Stable Diffusion搭配Deforum来完成动画logo演绎;
第三, 现场来训练一个中文语音模型,帮助动画人在分镜阶段实现效果更好的旁白配音。
我希望这几个知识点能够帮助大家在未来更好地利用AI工具来提升自己的在动画创作上的竞争力,比如自己动手完成一些小型的动画项目,或者在有灵感时能够快速进行视觉表现等。
对于动画工作者来说,AI就好比一个随时可以使用的小助手,在我们需要实现创作想法时,可以借助AI快速呈现效果,帮助大家在未来的职业道路上做好积累。
<由陈刘芳老师指导的学生作品>
<上下滑动欣赏全部图片>
Q4
您心目中完全态的AI工具应该是什么样的?那时候人类和AI的关系又该如何?
这是一个特别好的问题,我个人来看,一个比较理想的状态是:AI系统能够根据我们的文本输入,自动生成完整的动画作品,包括从画面、镜头、配音等各个方面,无需人为操作就能输出高质量作品。要修改的话,各个环节也能分别来做调整,有一个我最近发现的小说推文转视频软件,叫绘唐,就是这个流程的雏形。
关于AI和人类的关系,其实在上世纪70年代,人工智能艺术的先驱,英国艺术家Harold Cohen就打造了一个可以自主绘画的机器人ARRON,开始了他和人工智能四十年的合作。科恩将自己和 ARRON的关系比作文艺复兴时期画家与其工作室助手,时至今日仍然可以用来形容艺术家和人工智能系统之间的关系。
如果未来AI真正达到类似“数字生命”形态,有自己的思维和创作能力,那AI就上升到一个共生的位置,不再仅是工具,而是创作的伙伴。这时人机关系应该是一种合作共生的形态,在游戏《底特律:变人》中,也有比较深入展开的相关剧情。当AI拥有了生命和思维,有了感知和具身体验,我们的区别可能真的就只是组成元素的不同了……
但在那之前,我们还是应该把好用的AI系统作为工具来放大人类创作者的能力,而不是简单地讨论谁会被更换。通过AI或者其他工具灵活的辅助创作,更好的呈现故事,唯有在作品中,才能传承人类艺术创作的独特魅力。
WUHU
AI是解放人类双手,还是取代人类?
我们仍然在探索着这个问题的答案。
但如果你也好奇这个问题的答案,不妨在本周六(10月14日)晚上8点,来到本期【动画教练】陈刘芳老师的直播间一探究竟!
除此之外
本期的动画教练专题课
还有更多行业大咖和惊喜福利!
<上下滑动查看完整图片内容>
想被实力大咖指导
戳爆小精灵老师的聊天窗吧!
——END——
点击“阅读原文”进入课程详情页