Google DeepMind 开发了一种创新的的视频编辑技术方法:Generative OmniMatte ,可以将视频分解为多个 RGBA 层(全透明背景层),每层包含一个完整的物体及其相关的效果(如阴影、反射等)。
也就是它可以把视频拆分成多个“图层”,每个图层包含一个物体和它的相关效果,比如阴影、反射等。
就像 Photoshop 那样,将视频中的每个物体、人物、对象、背景等都可以单独被抠出来处理,方便你进行各种编辑和调整。
它不仅能让编辑视频更轻松,还能在背景动态或物体被遮挡时精准修复。
通过训练一个“自我学习”的AI模型,它能理解物体和周围环境的关系,生成清晰的分层结果,并支持多种视频编辑功能...
比如去掉某个物体或者人物、改变运动轨迹、更换视频背景、其他各种创意编辑等。
话不多说 看看演示先↓
它能做什么?
能把一个视频分成背景、物体1(比如一个人)、物体2(比如一辆车)等图层。这样,你可以单独调整某个物体或者背景,而不会影响其他部分。可以移除视频中的某个物体,比如一只狗或者一个路人。同时还能自动清理掉跟物体相关的阴影、反射等效果,保持视频整体的自然感。传统技术只能处理静止背景(比如固定摄像头拍摄的视频),但这项技术可以在动态背景中分离前景和背景,比如在移动镜头下也能精确地识别和处理。
举个例子
如果你拍了一段海滩的视频,想移除里面跑来跑去的小朋友,这个工具可以精准移除孩子,同时保留背景的波浪和其他元素。你还可以把小朋友的图层单独提取出来,修改颜色、添加效果,或者换个背景重新组合。1. 视频分层
将视频分解为多个层,每层包含一个前景对象及其相关的效果(如阴影、反射)。分层结果包括 RGBA 格式(红、绿、蓝、透明度),便于编辑和操作。输出高分辨率的 RGBA 视频图层,为后续的视觉效果合成(如电影后期制作、广告创意)提供便利。
2. 物体和效果移除
3. 遮挡区域的补全
通过生成扩散模型的先验能力,对被遮挡的区域进行合理的补全和修复。例如,当前景对象部分遮挡了背景或其他物体时,可以生成完整的背景和对象。4 多物体场景支持
使用 Trimask(三值遮罩),明确指定哪些区域需要保留、哪些需要移除、哪些可能包含不确定的效果。在多物体复杂场景中,能精准区分物体之间的相互影响,避免误删或误保留。5.视频编辑功能
对象移除:支持移除视频中的指定对象,同时补全其影响区域(如阴影或反射)。图层替换:可以替换特定图层,例如将背景替换为新场景或改变前景对象的样式。运动时间重定向:对对象的运动进行调整,如加速、减速或重复某段动作。前景与背景缩放或重定位:修改对象的大小、位置,甚至将其移动到新的视频场景中。动态效果处理:处理如水面波纹、光影变化等复杂效果,使得编辑后的内容自然且连贯。6. 创意编辑功能
通过图层操作与替换,将不同来源的视频内容合成一个新场景。用户可以单独调整某个物体或效果,比如更改颜色、透明度,甚至重新组合图层。在同一个视频中处理多个对象,支持复杂交互和动态变化。不仅可以移除,还可以单独提取图层用于其他创意项目。
7. 高精度处
通过自带的注意力机制(attention mechanism),精确识别物体和效果的关联,确保输出的质量。Generative OmniMatte 的技术原理和方法Generative OmniMatte 基于先进的生成式视频分解技术,核心思想是通过生成模型和自定义遮罩(Trimask),将视频分解为具有语义关联的多层。1. 视频分层与生成模型
Generative OmniMatte 的核心是一个预训练的 视频扩散模型(Video Diffusion Model),结合了以下关键步骤:分解视频:使用 RGBA 图层表示视频中的前景物体及其相关效果(如阴影、反射),并生成一个干净的背景图层。动态生成:利用生成式视频扩散模型完成动态场景中被遮挡区域的修复。2. Trimask(三值遮罩)技术
Trimask 是一项关键技术,用于明确定义视频中不同区域的处理方式:灰色区域(不确定):标识可能含有物体效果(如阴影、反射)的区域,供模型进一步处理。Trimask 的使用大幅提升了处理多物体场景时的精准度。3. 视频分解方法
对象与效果移除(Object and Effect Removal):
- 使用“Casper”模型,根据 Trimask 去除目标对象及其相关效果,同时生成“干净背景”。
- 基于扩散模型的注意力机制,自动关联物体和其相关效果。
- 将背景与单个前景图层组合,通过优化生成稀疏的 RGBA 图层。
4. 生成式视频扩散模型
Generative OmniMatte 使用一种基于扩散的生成模型,主要特点包括:预训练模型:利用现有视频生成模型的语义关联能力,理解物体与效果之间的关系。微调模型:在小规模的真实与合成视频数据集上微调,以提升在动态和复杂场景中的性能。基于生成式先验,提升对自然视频中复杂语义关系的理解。5. 数据驱动的训练与优化
Omnimatte 数据:提供静态背景场景的真实阴影和反射实例。Tripod 数据:提供动态背景(如水面波纹)的真实场景。Kubric 数据:合成多物体场景,训练模型处理复杂交互。Object-Paste 数据:通过在真实视频上叠加合成物体,增强背景修复能力。通过数据增强(例如裁剪、翻转),模型实现对多样场景的适配。6. 视频效果关联与注意力机制
通过模型内置的 注意力机制 分析物体与效果之间的空间关联:在去噪过程中,模型学习物体和相关效果(如阴影)的语义关系。7. 图层优化与高分辨率处理
分辨率提升:从低分辨率结果(如 128px)开始优化,再逐步放大至高分辨率(如 640×384)。细节迁移:在完全不透明区域,使用原始视频的细节对高分辨率图层进行优化。
更多演示:https://gen-omnimatte.github.io/
技术报告:https://arxiv.org/pdf/2411.16683__
加入XiaoHu.ai 日报社群 每天获取最新的AI信息
____________
点赞,转发,关注关注关注!