威凛凛,气堂堂,花身电目逞凶狂。腥风血雨起杀意,铜头铁尾镇四方。这段描述源自《黑神话:悟空》 Boss——虎先锋。只是,或许许多人很难将三拳打碎大圣梦的虎先锋动捕原型与温顺的猫联系起来。据官方介绍,七只猫佩戴无线传感器,在工作人员的引导下,完成攀爬,跳跃,急速转身等一系列动作捕捉动作,才将虎先锋的威严姿态生动地呈现在玩家面前。当然,传统动捕技术往往耗时漫长且复杂 ,比如「悟空」的真身也覆盖了游戏中 60% 的角色,但整体拍摄周期却长达四年之久。而随着 AI 的崛起,未来这一制作周期有望被大幅缩短。譬如最近 Wonder Dynamic 就上线了视频转 3D 的功能,圆我们简单的动捕梦,或许比想象中还要简单。附上体验链接:https://wonderdynamics.com/真人秒变 3D 动画,至少比想象中简单先来感受一下官方分享的演示视频。原本是一对男女在街头漫步的画面,经过 Wonder Dynamic 的神操作后,摇身一变成了一个铁皮机器人以及一个年轻小伙。跑步,转身等具体动作也被轻松地「复制」到机器人身上,步伐也是一板一眼地还原。这几年,我们已经被不少官方的演示 demo「诈骗」过,所以不看广告看疗效,我们也试着用 Wonder Dynamic 生成几段视频。例如,男主变成了胡子拉碴的大叔,姿态角度保留得原汁原味,与坐在楼梯上的女主同框时,有种跨次元的碰撞感。再进一步,我们对女主以及背景环境也进行了一番大改造。很遗憾,男主标志性的摸鼻梁手势还是没有被识别出来,而女主则从坐着变成了站着,且镜头出现的时机也有些突兀。而面对甄子丹手指向一侧,并扭头微笑的经典表情包,乍一看,场景转换非常到位。但仔细看,人物置身的画面背景却有些不对劲。原视频片段截自 B 站 UP 主五十五克作为人形机器人爱好者,我经常刷到许多人形机器人做家务、打羽毛球、做饭等视频。这些视频都有一些共同点,机器人动作宛如真人,娴熟地像是经过了无数次训练,连 TeslaBot 都得自愧不如。但现实总比理想骨感一些。作为对比,前不久波士顿动力公布了人形机器人的「鼻祖」Atlas 的最新视频,并宣称可以自主完成工厂的分拣任务。听起来很酷炫,但颤颤巍巍的动作还是出卖了它的青涩。而早在去年,Wonder Dynamic 就已经因为能够给视频真人换上机器人的「衣裳」而引起广泛关注。机器人注定会走入家庭生活,在此之前,我们或许可以靠视频来先行想象。不过,在上手体验之前,需要给各位打个预防针。因为经过实测,配置生成 5 秒视频的格式转换顶多五分钟,但渲染环节往往耗时接近 1 个小时,且视频时间越长,耗时越长。原视频片段来自 @heyBarsee花点时间「抽卡」,偶尔还是能抽出一些不错的视频,沙滩踢足球,海上冲浪,Wonder Dynamic 的角色一致性保持得不错。原视频来自 Alex G New Media Journalism那如果是机器人举重呢?我试着将巴黎奥运会举重的经典名场面转换了一下,没有出乎太多意外,远看还行,但近看的细节处理则有些马马虎虎。原视频片段截取自互联网举完重,机器人稍作休息,让 AI 展示一下太极的柔和之美。原视频片段截取自 B 站 UP 主 Jerry_2020原视频面面细节有些抖动,而经过技术处理后生成的片段,其抖动问题则更加突出。相信你已经看出,Wonder Dynamic 属于可以远看,但没法细看的那种,比如拿捏不了微表情,碰上动作幅度大的动作,细节处理也不够精细。一旦拉近观察,其局限性便暴露无遗。用高情商的话来说,那就是 Wonder Dynamic 还有很大的上升空间。AI 引入动捕行业,演员面临失业危机?今年出现的怪事是,底层语言模型的发展没有多大长进,反而内卷的战火却在 AI 视频赛道上愈演愈烈。具体来说,早期生成式 AI 的一个流行应用是使用样式迁移来创建人物照片的卡通版本。比如,之前 Snapchat 就曾通过提供「皮克斯风格」滤镜,让用户的脸看起来像是皮克斯动画电影中的角色。而与样式迁移的图像处理方法不同,Wonder Animation 从视频转换到 3D 场景技术的输出是完全可编辑的 3D 动画。它能够输出包含 3D 动画、角色、环境、和摄像机跟踪数据,可加载到用户的首选软件中,比如 Maya、Blender 或 Unreal。当然,缺点也说了,这款工具目前称不上成熟,只是相当于省事地为创作打好草稿。或者说,你可以暂时把它当作一个娱乐的小工具,让 AI 替你出镜,几乎零成本的动作捕捉,遇上更专业的需求,你还得需要接入后期软件,一点一点地修改。Wonder Dynamics 的联合创始人 Nikola Todorovic 也曾在其博客中写道:你可以在家中客厅进行视频的拍摄和编辑,包括你想要的表演、剪辑和镜头设置,就像你在动画中期望看到的那样,这个过程可以迅速给你一个预览效果。
更重要的是,提供 3D 场景,让你能够在 Blender、Maya 或 Unreal 等软件中逐个编辑每一个元素。 在无人在意的角落,上周 Runway 也悄悄发布了一款带有类似功能的工具——Act-One。相较于 Wonder Animation 的抓大放小,Act-One 能够生动地捕捉用户的眼神、面部表情、以及动作节奏等细微之处,从而生成富有表现力的角色表演。视频来自 @iamneubert并且,与传统手动面部建模以及多步流程不同,Act-One 只需要一台普通的摄像头来捕捉演员的表演,即可生成高质量的虚拟角色动画,大大降低了制作门槛和成本。不信,你看,草稿纸上画的人像就这么水灵灵地活过来了,真·神笔马良。图片来自 X 网友@sainimatic当然,传统的动捕行业往往相对复杂。动作捕捉的原理主要是通过记录演员的身体运动,将这些运动数据转化为数字信息,以便用于动画、视频游戏和影视制作中。最经典的例子莫过于安迪·瑟金斯在《指环王》三部曲中饰演的咕噜。为了实现这种效果,动捕团队需要在几个月的拍摄过程中,使用复杂的设备和软件,捕捉瑟金斯的每一个细微动作和表情,这些数据随后被转化为咕噜在大银幕上的生动形象。后续接受纪录片时,瑟金斯也曾表示:我扮演了咕噜这个角色,作为计算机生成的角色,咕噜相当一部分仰赖共同创作。但我认为,是我真正赋予了它「表演」赋予角色背后的情感驱动,赋予身体,以及最重要的,赋子它声音。 《阿凡达:水之道》在上映之初,也曾分享过动捕幕后的一些花絮。1.导演詹姆斯·卡梅隆和其团队开发了一套名为「虚拟摄影机」的系统,结合了动作捕捉和实时渲染技术,允许摄影师在虚拟环境中「拍摄」场景。演员的动作和表情被实时捕捉并转化为数字化的角色。2.为了提高角色表情的真实性,《阿凡达》采用了先进的面部捕捉技术。演员佩戴了专门的面具,上面装有小型摄像头,用于捕捉细微的面部表情。3.拍摄过程中,使用了红外线摄像头,形成一个 360 度的捕捉空间,能够精确捕捉演员在复杂场景中的动作。4.团队在捕捉后,对数据进行细致处理,结合传统的动画技术,确保角色的动作流畅自然。5.通过实时捕捉,演员能够与虚拟环境中的元素互动,增强了表现力,使观众能够更好地投入到故事中。尽管目前 AI 动捕行业的发展处于萌芽阶段,但随之而来的,却是失业危机的隐患。所以我们看到,不久前,好莱坞因为 AI 再度爆发罢工。当时,美国演员工会和美国电视广播艺术家联合会(SAG-AFTRA)下属的视频游戏配音演员和动作捕捉演员要求行业不能轻易滥用 AI。他们的主要诉求之一是,AI 的使用可能会剥夺那些经验尚浅的演员通过扮演小角色来「练级」的机会。诚然,任何一项新技术的到来通常伴随着非议。蒸汽机的响声送走了马车夫,AI 看起来也将如此。最近英伟达创始人黄仁勋也给出了一个类似的观点,AI 目前还不能完全接管人类所有的工作,但不懂 AI 的人会被懂 AI 的人取代。人们常常问我:「AI 会夺走你的工作吗?」我告诉他们,绝对不会。