首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

文摘 2024-11-27 23:32 北京

Google DeepMind 开发了一种创新的的视频编辑技术方法：Generative OmniMatte ，可以将视频分解为多个 RGBA 层（全透明背景层），每层包含一个完整的物体及其相关的效果（如阴影、反射等）。

也就是它可以把视频拆分成多个“图层”，每个图层包含一个物体和它的相关效果，比如阴影、反射等。

就像 Photoshop 那样，将视频中的每个物体、人物、对象、背景等都可以单独被抠出来处理，方便你进行各种编辑和调整。

它不仅能让编辑视频更轻松，还能在背景动态或物体被遮挡时精准修复。

通过训练一个“自我学习”的AI模型，它能理解物体和周围环境的关系，生成清晰的分层结果，并支持多种视频编辑功能...

比如去掉某个物体或者人物、改变运动轨迹、更换视频背景、其他各种创意编辑等。

话不多说看看演示先↓

它能做什么？

把视频分层：

能把一个视频分成背景、物体1（比如一个人）、物体2（比如一辆车）等图层。

这样，你可以单独调整某个物体或者背景，而不会影响其他部分。

移除物体或效果：

可以移除视频中的某个物体，比如一只狗或者一个路人。

同时还能自动清理掉跟物体相关的阴影、反射等效果，保持视频整体的自然感。

动态场景也行：

传统技术只能处理静止背景（比如固定摄像头拍摄的视频），但这项技术可以在动态背景中分离前景和背景，比如在移动镜头下也能精确地识别和处理。

举个例子

如果你拍了一段海滩的视频，想移除里面跑来跑去的小朋友，这个工具可以精准移除孩子，同时保留背景的波浪和其他元素。

你还可以把小朋友的图层单独提取出来，修改颜色、添加效果，或者换个背景重新组合。

主要功能

1. 视频分层

语义明确的图层：

将视频分解为多个层，每层包含一个前景对象及其相关的效果（如阴影、反射）。

支持动态背景处理，不需要静止背景或相机位姿信息。

支持动态内容分层：

能处理动态背景、复杂遮挡以及动态对象之间的交互。

分层结果包括 RGBA 格式（红、绿、蓝、透明度），便于编辑和操作。

输出高分辨率的 RGBA 视频图层，为后续的视觉效果合成（如电影后期制作、广告创意）提供便利。

2. 物体和效果移除

智能去除物体：

可以移除视频中不需要的物体，比如路人、杂物等。

同时去掉相关的阴影和反射，保持画面自然。

干净的背景生成：

移除物体后，系统会自动填补背景，让画面无缝衔接。

3. 遮挡区域的补全

通过生成扩散模型的先验能力，对被遮挡的区域进行合理的补全和修复。

例如，当前景对象部分遮挡了背景或其他物体时，可以生成完整的背景和对象。

4 多物体场景支持

使用 Trimask（三值遮罩），明确指定哪些区域需要保留、哪些需要移除、哪些可能包含不确定的效果。

在多物体复杂场景中，能精准区分物体之间的相互影响，避免误删或误保留。

5.视频编辑功能

对象移除：支持移除视频中的指定对象，同时补全其影响区域（如阴影或反射）。

图层替换：可以替换特定图层，例如将背景替换为新场景或改变前景对象的样式。

运动时间重定向：对对象的运动进行调整，如加速、减速或重复某段动作。

前景与背景缩放或重定位：修改对象的大小、位置，甚至将其移动到新的视频场景中。

动态效果处理：处理如水面波纹、光影变化等复杂效果，使得编辑后的内容自然且连贯。

6. 创意编辑功能

新场景合成，支持单独编辑每个图层：

通过图层操作与替换，将不同来源的视频内容合成一个新场景。用户可以单独调整某个物体或效果，比如更改颜色、透明度，甚至重新组合图层。

灵活组合，多对象处理：

在同一个视频中处理多个对象，支持复杂交互和动态变化。不仅可以移除，还可以单独提取图层用于其他创意项目。

7. 高精度处

通过自带的注意力机制（attention mechanism），精确识别物体和效果的关联，确保输出的质量。

在大多数场景中能保持背景与前景的自然过渡。

Generative OmniMatte 的技术原理和方法

Generative OmniMatte 基于先进的生成式视频分解技术，核心思想是通过生成模型和自定义遮罩（Trimask），将视频分解为具有语义关联的多层。

1. 视频分层与生成模型

Generative OmniMatte 的核心是一个预训练的 视频扩散模型（Video Diffusion Model），结合了以下关键步骤：

分解视频：使用 RGBA 图层表示视频中的前景物体及其相关效果（如阴影、反射），并生成一个干净的背景图层。

动态生成：利用生成式视频扩散模型完成动态场景中被遮挡区域的修复。

主要特性

不需要静态背景假设或准确的深度信息。

对动态和复杂场景提供更高质量的分层支持。

2. Trimask（三值遮罩）技术

Trimask 是一项关键技术，用于明确定义视频中不同区域的处理方式：

白色区域（保留）：指定需要保留的物体。

黑色区域（移除）：指定需要移除的物体或效果。

灰色区域（不确定）：标识可能含有物体效果（如阴影、反射）的区域，供模型进一步处理。

Trimask 的使用大幅提升了处理多物体场景时的精准度。

3. 视频分解方法

分解过程分为两个阶段：

对象与效果移除（Object and Effect Removal）：

使用“Casper”模型，根据 Trimask 去除目标对象及其相关效果，同时生成“干净背景”。
基于扩散模型的注意力机制，自动关联物体和其相关效果。
图层优化与重建：

将背景与单个前景图层组合，通过优化生成稀疏的 RGBA 图层。
优化的目标是使分层结果在合成后与原视频一致。

4. 生成式视频扩散模型

Generative OmniMatte 使用一种基于扩散的生成模型，主要特点包括：

预训练模型：利用现有视频生成模型的语义关联能力，理解物体与效果之间的关系。

微调模型：在小规模的真实与合成视频数据集上微调，以提升在动态和复杂场景中的性能。

优势

自动修复被遮挡的动态区域。

基于生成式先验，提升对自然视频中复杂语义关系的理解。

5. 数据驱动的训练与优化

模型通过以下类型数据进行训练：

Omnimatte 数据：提供静态背景场景的真实阴影和反射实例。

Tripod 数据：提供动态背景（如水面波纹）的真实场景。

Kubric 数据：合成多物体场景，训练模型处理复杂交互。

Object-Paste 数据：通过在真实视频上叠加合成物体，增强背景修复能力。

通过数据增强（例如裁剪、翻转），模型实现对多样场景的适配。

6. 视频效果关联与注意力机制

通过模型内置的 注意力机制 分析物体与效果之间的空间关联：

在去噪过程中，模型学习物体和相关效果（如阴影）的语义关系。

精确定义遮罩范围，确保前景与背景分层的完整性。

7. 图层优化与高分辨率处理

分辨率提升：从低分辨率结果（如 128px）开始优化，再逐步放大至高分辨率（如 640×384）。

细节迁移：在完全不透明区域，使用原始视频的细节对高分辨率图层进行优化。

更多演示：https://gen-omnimatte.github.io/

技术报告：https://arxiv.org/pdf/2411.16683

__

加入XiaoHu.ai 日报社群每天获取最新的AI信息

____________

End.

感阅

谢读

点赞，转发，关注关注关注！

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

特斯拉展示 Optimus 机器人最新进展多机器人能够共享数据、自主导航、自行充电、爬楼梯、能真的干活了...

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉