Google开发出能像Photoshop一样 将视频智能分解成多个图层的视频编辑技术

文摘   2024-11-27 23:32   北京  

Google DeepMind 开发了一种创新的的视频编辑技术方法:Generative OmniMatte ,可以将视频分解为多个 RGBA 层(全透明背景层),每层包含一个完整的物体及其相关的效果(如阴影、反射等)。

也就是它可以把视频拆分成多个“图层”,每个图层包含一个物体和它的相关效果,比如阴影、反射等。

就像 Photoshop 那样,将视频中的每个物体、人物、对象、背景等都可以单独被抠出来处理,方便你进行各种编辑和调整。

它不仅能让编辑视频更轻松,还能在背景动态或物体被遮挡时精准修复。

通过训练一个“自我学习”的AI模型,它能理解物体和周围环境的关系,生成清晰的分层结果,并支持多种视频编辑功能...

比如去掉某个物体或者人物、改变运动轨迹、更换视频背景、其他各种创意编辑等。

话不多说 看看演示先↓

它能做什么?
  1. 把视频分层:
  2. 能把一个视频分成背景、物体1(比如一个人)、物体2(比如一辆车)等图层。
    这样,你可以单独调整某个物体或者背景,而不会影响其他部分。
  3. 移除物体或效果:
  4. 可以移除视频中的某个物体,比如一只狗或者一个路人。
    同时还能自动清理掉跟物体相关的阴影、反射等效果,保持视频整体的自然感。
  5. 动态场景也行:
  6. 传统技术只能处理静止背景(比如固定摄像头拍摄的视频),但这项技术可以在动态背景中分离前景和背景,比如在移动镜头下也能精确地识别和处理。
举个例子
如果你拍了一段海滩的视频,想移除里面跑来跑去的小朋友,这个工具可以精准移除孩子,同时保留背景的波浪和其他元素。

你还可以把小朋友的图层单独提取出来,修改颜色、添加效果,或者换个背景重新组合。
主要功能
1. 视频分层
语义明确的图层:
    将视频分解为多个层,每层包含一个前景对象及其相关的效果(如阴影、反射)。
    支持动态背景处理,不需要静止背景或相机位姿信息。
    支持动态内容分层:
    能处理动态背景、复杂遮挡以及动态对象之间的交互。
    分层结果包括 RGBA 格式(红、绿、蓝、透明度),便于编辑和操作。
    输出高分辨率的 RGBA 视频图层,为后续的视觉效果合成(如电影后期制作、广告创意)提供便利。

2. 物体和效果移除
智能去除物体:
    可以移除视频中不需要的物体,比如路人、杂物等。
    同时去掉相关的阴影和反射,保持画面自然。
干净的背景生成:
    移除物体后,系统会自动填补背景,让画面无缝衔接。
3. 遮挡区域的补全
通过生成扩散模型的先验能力,对被遮挡的区域进行合理的补全和修复。
例如,当前景对象部分遮挡了背景或其他物体时,可以生成完整的背景和对象。
4 多物体场景支持
使用 Trimask(三值遮罩),明确指定哪些区域需要保留、哪些需要移除、哪些可能包含不确定的效果。
在多物体复杂场景中,能精准区分物体之间的相互影响,避免误删或误保留。
5.视频编辑功能
对象移除支持移除视频中的指定对象,同时补全其影响区域(如阴影或反射)。
图层替换可以替换特定图层,例如将背景替换为新场景或改变前景对象的样式。
运动时间重定向对对象的运动进行调整,如加速、减速或重复某段动作。
前景与背景缩放或重定位修改对象的大小、位置,甚至将其移动到新的视频场景中。
动态效果处理处理如水面波纹、光影变化等复杂效果,使得编辑后的内容自然且连贯。
6. 创意编辑功能
新场景合成,支持单独编辑每个图层:
    通过图层操作与替换,将不同来源的视频内容合成一个新场景。用户可以单独调整某个物体或效果,比如更改颜色、透明度,甚至重新组合图层。
    灵活组合,多对象处理:
    在同一个视频中处理多个对象,支持复杂交互和动态变化。不仅可以移除,还可以单独提取图层用于其他创意项目。
7. 高精度处
通过自带的注意力机制(attention mechanism),精确识别物体和效果的关联,确保输出的质量。
在大多数场景中能保持背景与前景的自然过渡。
Generative OmniMatte 的技术原理和方法
Generative OmniMatte 基于先进的生成式视频分解技术,核心思想是通过生成模型和自定义遮罩(Trimask),将视频分解为具有语义关联的多层。

1. 视频分层与生成模型
Generative OmniMatte 的核心是一个预训练的 视频扩散模型(Video Diffusion Model),结合了以下关键步骤:
分解视频:使用 RGBA 图层表示视频中的前景物体及其相关效果(如阴影、反射),并生成一个干净的背景图层。
动态生成:利用生成式视频扩散模型完成动态场景中被遮挡区域的修复。
主要特性
不需要静态背景假设或准确的深度信息。
对动态和复杂场景提供更高质量的分层支持。
2. Trimask(三值遮罩)技术
Trimask 是一项关键技术,用于明确定义视频中不同区域的处理方式:
白色区域(保留):指定需要保留的物体。
黑色区域(移除):指定需要移除的物体或效果。
灰色区域(不确定):标识可能含有物体效果(如阴影、反射)的区域,供模型进一步处理。
Trimask 的使用大幅提升了处理多物体场景时的精准度。
3. 视频分解方法
分解过程分为两个阶段:
对象与效果移除(Object and Effect Removal):
    • 使用“Casper”模型,根据 Trimask 去除目标对象及其相关效果,同时生成“干净背景”。
    • 基于扩散模型的注意力机制,自动关联物体和其相关效果。
      图层优化与重建:
    • 将背景与单个前景图层组合,通过优化生成稀疏的 RGBA 图层。
    • 优化的目标是使分层结果在合成后与原视频一致。
    4. 生成式视频扩散模型
    Generative OmniMatte 使用一种基于扩散的生成模型,主要特点包括:
    预训练模型:利用现有视频生成模型的语义关联能力,理解物体与效果之间的关系。
    微调模型:在小规模的真实与合成视频数据集上微调,以提升在动态和复杂场景中的性能。
    优势
    自动修复被遮挡的动态区域。
    基于生成式先验,提升对自然视频中复杂语义关系的理解。
    5. 数据驱动的训练与优化
    模型通过以下类型数据进行训练:
    Omnimatte 数据:提供静态背景场景的真实阴影和反射实例。
    Tripod 数据:提供动态背景(如水面波纹)的真实场景。
    Kubric 数据:合成多物体场景,训练模型处理复杂交互。
    Object-Paste 数据:通过在真实视频上叠加合成物体,增强背景修复能力。
    通过数据增强(例如裁剪、翻转),模型实现对多样场景的适配。
    6. 视频效果关联与注意力机制
    通过模型内置的 注意力机制 分析物体与效果之间的空间关联:
    在去噪过程中,模型学习物体和相关效果(如阴影)的语义关系。
    精确定义遮罩范围,确保前景与背景分层的完整性。
    7. 图层优化与高分辨率处理
    分辨率提升:从低分辨率结果(如 128px)开始优化,再逐步放大至高分辨率(如 640×384)。
    细节迁移:在完全不透明区域,使用原始视频的细节对高分辨率图层进行优化。

     
    更多演示:https://gen-omnimatte.github.io/

    技术报告:https://arxiv.org/pdf/2411.16683

    __

    加入XiaoHu.ai 日报社群 每天获取最新的AI信息

    ____________

    End.


    感  阅
    谢  读

    点赞,转发,关注关注关注

    小互AI
    XiaoHu.AI 学院(http://xiaohu.ai)学习如何让AI为你服务。加入小互AI学院,获取最新AI资讯、案例、项目、教程。学习如何使用AI...
     最新文章