工具与测评 | 从视频风格化到特效创意,AI视频生成工具新功能大盘点

文摘   2024-10-31 17:32   广东  

在过去的一段时间中,市面上的一些视频生成工具都或多或少的进行了功能和模型方面的更新,为用户带来了令人瞩目的新功能。比如,Runway推出了基于Gen-3 Alpha模型的V2V(Video to Video)功能以及全新生成式角色表演工具Act-One;可灵更新了其运动笔刷功能,显著提升了物体运动轨迹的可控性;沉寂数月后的Pika,发布了Pikaffect功能,其所包含的十种特效瞬间在社交媒体上引发了广泛关注。


今天,我们将梳理这些更新的内容,探究目前视频生成领域的更新后的效果及实际表现。


01

Runway V2V & Act-One

V2V(Video to Video)功能

在视频生成模型不断推进的今天,风格化的需求也与日俱增。从早期的图像生成视频、到首尾帧视频、再到可控镜头和主体一致性,各种技术如雨后春笋般层出不穷。比如,生数科技的Vidu则引入了“主体参照”功能,允许用户在视频生成过程中保持主体形象的一致性。而位列AI视频生成头部产品的Runway在9月中下旬,推出了V2V(Video to Video)功能,这一创新更是显著提升了AI视频在风格转绘方面的可控性和技术水平。


产品链接:https://app.runwayml.com/login


功能介绍

Video to Video 即视频转视频,作用是基于一个视频的基础内容框架,赋予其新的外表和风格,因此也叫做 「视频转绘」或「视频风格化」。


AI视频创作中,目前最常见的工作流是图生视频和文生视频。相较之下,大多数头部AI视频工具如Luma、可灵、即梦等,都还没有支持V2V功能。但对于寻求进阶玩法的玩家来说,V2V在保持画面连续性、人物运动符合物理运动规则方面有着天然的优势。


根据功能和玩法差异,我们简单把实现V2V的工具以及方案分成了以下四类:


1.  通用视频转绘工具:可以通过文字提示词指挥AI做后期特效,包括改变视频氛围、色调和风格,甚至更改人物形象。代表工具有Runway、Domo和Kaiber。


2.  模版化的视频转绘工具:这类工具定位更接近“视频风格转绘”,通常由官方提供预设模版,适合需要快速制作特定视频风格的玩家,代表工具有GoEnhance AI、Wink AI,本质是官方预设好的LoRA与工作流复用。


缺点在于不支持文字提示词输入,所以你没有办法“用嘴”指挥AI修改画面主体的细节。例如,让人物戴个帽子、或者更改人物样貌,如果官方没有提供特定的模版,都难以通过这类工具实现。


3.  局部视频编辑工具:支持输入文字提示词进行局部编辑,适合需要精细调整视频的用户。代表工具有Pika1.0、以及尚未面向公众开放的Sora和Meta最近发布的AI视频模型Movie Gen。本质上此类产品也是通过V2V,对局部的视频内容进行风格化的处理。


虽然在交互上更自然、更可控——可以通过框选局部画面进行精细修改,也支持文字提示词输入。但目前市面上提供该功能的产品很少。


4.  风格化ComfyUI工作流:通过SD底模+对应风格LoRA以及其他插件组合形成风格化工作流。这种操作类型的好处是细微的参数的调整以及整体风格的可控自由度会更大,但是在更换风格的便捷程度以及生成速度上都受到了一定程度的限制。


整体来看以Runway为代表的视频转绘工具可玩性就很高了。更新后的Runway V2V功能基于Gen-3 Alpha,实现了更稳定流畅的转换效果,画面质量也更为精致清晰。更重要的是对于视频整体风格化的稳定性有很大的提升,同时也支持对局部编辑与修改,为创作带来了极大的便利。


使用流程

新的 V2V 功能需要在 Gen-3 Alpha 模型内使用,也就是需要开通会员才能用上。用法依旧简单,只需上传本地的视频,然后在提示词中只需描述视频内容,并添加上对应的风格提示词就可以了。虽然 Gen-3 的目前只支持文本控制风格,但也足够使用了。无论是色调、风格还是元素内容,只要你能写出对应的关键词,视频在转换后就能实现你想要的效果。同时Gen-3还提供了一些自带的风格提示词以供直接使用。


另外可以通过 Structure transformation (结构传输)参数控制转换效果:数值越高,画面变化就越明显,反之则更像原视频。对于喜欢或常用的关键词,可以在 “Preset 预设” 中保存下来,下次就能一键直接调用了。


实际案例


关于Runway V2V的实际效果及其未来的应用潜力,可以先看几个演示动图:


无论是处理人物还是场景,Gen-3 能做到的不单单是改变表面风格,而是能在保留大体框架的情况下,赋予视频新的内容形式。比如让人脸变成老鼠、让晴朗的城市乌云密布电闪雷鸣、让山谷变成沙地等,这些原本需要复杂CG才能实现的神奇特效,现在用文字就能轻松做到,对降低视频创作门槛来说无疑是好消息。


对于目前使用Gen-3 V2V 功能的工作流可以大致分为2类:一种是仅使用Gen-3 V2V改变原视频的风格进行二创,另一种是将Gen-3 V2V融入完整视频制作流程中,结合其他AI产品共同创作。


使用Gen-3 V2V的风格化二创

一个在网上传播颇广的例子是《甄嬛传》的二创,抖音博主“赛博影业”自9月20日起在抖音上陆续更新了一系列《甄嬛传》的二创视频,定位是“印度甄嬛”。这些视频大多使用剧中的名场面或经典情节进行印度风格转绘,其中一条视频获得了36.8万转发。


从效果呈现来看,这些二创视频并没有对原片的叙事进行较大改动,仅仅是利用V2V将画面风格和人物装扮转换成了具有印度特色的元素。


于是我们也用Runway测试了V2V功能的实际效果,截取了甄嬛传中部分经典片段,并提供想要生成的风格化提示词,在这里我们希望生成的是中世纪欧洲的风格。

Medieval European film, a group of dame, wearing silk clothes and gorgeous jewelry



整体画面基本没有明显的瑕疵。在细节处理上,生成视频中的人物服饰和头饰较好地还原了提示词中描述的风格。同时,原视频中的陶瓷茶杯等道具也被替换成了金属杯,确保了整体风格的一致性。在人物可控性方面,即便经历了镜头的切换,生成的人物面部特征仍然保持一致。


然而,唯一的不足之处在于,V2V功能在处理面部细节时无法做到让人物嘴部跟随口型变化,导致在人物说话时出现嘴唇紧闭的情况。然而,这一问题在后续发布的新功能“Act-One”中得到了有效的解决。


结合V2V的创作工作流

除了风格化二创以外,还有许多专业人员希望将 Gen-3 V2V 融入传统视频制作流程,进行了相关尝试。比如,Twitter上的一位导演“Jon Finger”借助Runway就实现了一个人拍摄一部科幻短片的梦想。博主先是拍摄了多个真实场景的视频,结合部分未经渲染的3D建模镜头,投喂给AI后,经过大量抽卡,便得到了最终的视频效果。


看完这个视频的前后效果对比,相信你一定会惊叹于创作者本人强大的脑洞和对 AI 技术的灵活运用。单独使用Runway就已经足够惊艳,那么将Runway的V2V功能与其他AI产品结合共同使用,又能碰撞出什么样的火花呢?


X上有一位纪录片制作人Joey Daoud分享了自己参与AI短篇视频制作大赛的作品以及创作历程。

在这部作品的创作过程中,使用了多种创作工具的不同功能进行结合,其中也使用到了Runway的V2V功能。可以看到目前AI生成工具在内容生产方面的泛用性以及多样性,以下是工作流的整理和总结:


当然Joey也表示整个制作过程中遇到了很多障碍,且仍然有很多想法有待验证与测试。希望未来能够改进这个工作流程,使得呈现效果更逼真与自然的同时保留部分传统视频拍摄的方法。


Act-One功能

前者发布1个月后不久,Runway再度发布一款名为Act-One的工具,这是一款用于在Gen-3 Alpha中生成富有表现力的角色表演的全新工具,可以通过使用视频和语音输入生成生动逼真的角色表演。


功能介绍

Act-One的核心功能在于其能够通过普通的视频素材捕捉演员的表演,并将其转换成虚拟角色的动画。这一过程中,演员的眼神、面部表情、动作节奏和说话方式都会被精准捕捉并再现于虚拟角色上。


过去的角色动画创作中,面部动作捕捉相对是来说的实现成本并不算低。无论是在电影、视频游戏还是虚拟现实中,通过虚拟角色表现真实而细致的情感都需要昂贵的设备和更复杂的流程。但今天,伴随着Runway的更新,只需要录制自己或演员的面部表情,就能够将这些表情以极高的精度映射到 AI 生成的角色上。这项技术简化了传统上复杂且设备繁重的面部动画制作过程,极大地降低了普通创作者的创作成本。


使用流程

目前ActOne功能已经上线Runway官网,点进首页就能使用;免费版可消耗积分使用引擎Gen-2和Gen-3 Alpha Turbo,若想使用Gen-3 Alpha需付费升级会员。


实际效果


可以看到在普通的用户的案例展示中,无论是使用经典的名画角色还是用户自设角色,用户自行录制的面部表情均能与原有的动画角色较为完美地融合。最终生成的视频中,面部表情也清晰地再现了用户自身面部运动的细节。


02

可灵—“运动笔刷”

同样是在9月下旬更新的可灵1.5版本,升级了产品的底模,使得除了在画面质量、动态质量、文本响应度等方面有显著效果提升之外,还同时新增了运动笔刷功能,大幅提升了图生视频时创作者对运动效果的控制能力。


  • 画面质量:升级后的1.5模型高品质模式可直接生成1080p高清视频;同样的提示词下,新模型生成的画面清晰度更直观可感,画面整体构图也进一步优化,画面更具美感;

  • 动态质量:新模型生成的人物动作更加自然流畅,整体运动合理性大大增强;

  • 文本响应:全新的1.5模型可以响应更复杂的文本描述要求,生成的视频可以根据提示词进行镜头的变换



功能介绍

“运动笔刷”功能支持为图片中的元素(人或物体等)指定运动轨迹,用户只需将图片中需要控制运动方向的部分勾勒出来,然后画一个示意运动方向箭头,就可实现精准运动控制。该功能支持上传图片后最多为图中的 6 个元素(人或物体等)指定运动轨迹。


此外,还可以为某些元素额外指定静止区域,让视频内容有更好的运动控制及运动表现。目前运动笔刷功能支持多种格式的视频生成,最大长度为5秒。


使用流程

进入图生视频页面,上传想要生成视频的图片后点击运动笔刷【去绘制】。目前只有1.0版本模型支持使用运动笔刷。在参数设置上可以自由调节“创意想象力”和“创意相关性”之间的比例。


进入运动笔刷界面,点击【开启自动检测区域】,点击【区域1】选择狗主体,然后点击轨迹1,让狗循着飞盘的方向移动。点击区域2选择飞盘,然后点击轨迹2,让飞盘往前飞。区域和轨迹绘制好后,点击【确认添加】。


最多可以选择6个区域添加轨迹


回到图生视频界面,看到运动笔刷选项位置显示“已绘制2条运动轨迹”,点击【立即生成】。



值得注意的是,如果希望避免模型生成运镜效果,就需要使用“静态笔刷”功能,涂抹后该区域的像素会固定。



在运动轨迹相同的情况下,左图是只使用了动态笔刷,可灵就未能精准识别出手部动作变化而导致最后生成运镜效果;而右图是加入了静态笔刷后的效果,比较符合原先构思的设定。


运动笔刷功能测评

我们首先分别评估了仅使用提示词和结合运动笔刷的效果。从测试结果可以明显看出,在仅有提示词的情况下,尽管给出了“小船向前移动”的指令,小船的运动幅度仍然非常有限。反之,在运用了运动笔刷后,可以自由控制小船的运动轨迹,效果非常惊艳。


另外,运动轨迹最多可以添加六段。在图二中,我们分别为船只、湖面和星空添加了不同的运动轨迹,三者的运动变化显得和谐自然,生成的视频景物相得益彰。然而,仅使用提示词时,无法精确区分星空和湖面,导致视频中两者一同运动,表现出不自然的效果。



添加的运动轨迹如图所示


Runway在今年年初对其运动笔刷功能进行了升级,这促使我们联想到对可灵与Runway的多头运动笔刷功能进行比较测试。在给予相同的底图时,我们明显发现Runway生成的视频在整体画风和色调上与原图有较大差异,而可灵则能够基本保持不变。


此外,在处理某些细节方面,Runway的表现也不及可灵。例如,在选择相同的小船时,Runway生成的视频中,小船移动时破坏了水面的结构,而可灵却能保持自然流畅。



Runway的运动笔刷还需要用户手动调整XYZ轴(即水平、垂直、深度和环境)上的移动参数,因此对新手而言,可灵显得更为易用和便捷;而对于较熟悉AI视频创作的用户来说,Runway则更具运动细节操控的优势。


由此可见,可灵AI的运动笔刷功能在易用性、效果表现等方面均为业内领先。但目前生成视频需要等待的时间较长。


03

Pika—「Pikaffect」

时隔多月,Pika终于在10月份发布1.5版本的更新内容,除了在画面质量上有显著提升,生成的视频更加逼真以外,在运镜上也有重大突破:支持快速变焦、平移、摇臂镜头等高级运镜效果。


功能介绍

更新的一大重要板块就是Pikaffect,一经发布便迅速引爆社交媒体。首次更新了六个不同的特效:分别是膨胀、融化、爆炸、挤压、压碎和蛋糕化。后续又新增4种特效:粉碎、溶解、瘪掉和“ta-da”特效可以让视频中的人物像被布遮住一样瞬间消失)。用户只需要上传图片选择特效即可生成相应动态视频。


首次更新的6种特效


粉碎、溶解、瘪掉和“ta-da”特效


使用流程

产品链接:https://pika.art/home


点进Pika官网就能看到Pikaffect,目前是基于图生视频使用的。在上传一张图片后,点击“Pikaffect”,用户可以选择已有的特效直接作用于图片之上。选择任意一种,效果会自动输入提示词,然后点击生成就可以了。如果不喜欢这些预设特效,也可以自己在提示词框内输入内容。


整体体验下来,跟可灵的初代版差不多。物体的稳定度、画面的连贯性、画质的清晰度都有一定的保证。相比于那些高难度的AI大片制作,这种更适合新人小白入门AI视频的制作。因为它的操作可以说是几乎没有门槛。一张图片,一个预设的特效,或者再加一个简单的tag。


相比先前视频模型中明显违反物理规律的破绽,Pikaffects在各种脑洞大开的操作中,还能让人感觉直觉上可行,在「想象力」和「现实感」之间做到了极好的平衡。以往,很多视频生成模型被诟病最多的,就是「不符合物理规律」,而Pika团队本次训出的模型,似乎对物体的材质、空间位置关系和语义内涵都有了更好的理解,生成的运动轨迹也更为合理。


正如Pika创始人Demi Guo曾说过的“我们开发的不是电影的制作工具,而是为日常用户所打造的产品。”Pika此次更新更偏向于方便日常情形的使用与传播。社交媒体上关于Pikaffect的讨论度和各类有趣的生成结果足以证明Pika沉寂已久后的更新之成功。


04

总结

近期多个AI视频生成产品都在功能上进行了升级或更新,可以看出各大厂商争夺C端用户流量的决心与占据市场先机的野心。通过对Runway、可灵和Pika最新更新的梳理与分析,我们可以看到他们都在提升AI视频生成可控性方面做出了明显努力。Runway和可灵瞄准商业化和专业化方向,吸引大量专业视频制作者使用其新功能,将AI生成技术与传统视频制作方式相结合;而Pika则倾向于面向日常生活场景,使普通用户也能轻松制作出优质的视频内容。


同样值得关注的是,Genmo的新开源视频生成模型「Mochi1」以其高画质和流畅度在业内获得了高度认可。不过 Mochi 目前对算力的要求较高,后续,我们也将会进行详细测评,深入探讨这款模型的实际应用效果与潜力。


相信未来AI的创新步伐只会越来越快,我们也将继续关注行业前沿动态,敬请关注我们的后续更新。


关于LitGate

大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!


我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群


更多精彩活动和功能筹备上线中,敬请期待~


关注我们,一起探索AI创作的无限可能吧!


新版官网地址:www.litgate.ai


LitGate
AI赋能游戏开发,一站式创作者社区 http://www.litgate.ai
 最新文章