开源实操 | DiffIR2VR-Zero:模糊视频8K高清修复技术

文摘   2024-08-04 23:04   浙江  


简 介

DiffIR2VR-Zero:一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。

通过关键帧与局部帧的分层合并策略和混合对应机制,该方法在无需重新训练的情况下,实现了卓越的视频恢复效果,甚至在极端退化条件下超越了训练模型。这项研究不仅提升了视频恢复的效率和适用性,也为高质量视频输出需求的领域带来了技术革新。

项目主页:https://jimmycv07.github.io/DiffIR2VR_web/

官方演示:https://huggingface.co/spaces/Koi953215/DiffIR2VR

视频超分辨率

(a) 传统的基于回归的方法(例如 FMA-Net)仅限于训练数据域,并且在遇到域外输入时往往会产生模糊的结果。(b) 虽然将基于图像的扩散模型(例如 DiffBIR)应用于各个帧可以生成真实的细节,但这些细节通常缺乏帧间的一致性。(c) DiffIR2VR-Zero方法利用图像扩散模型来恢复视频,无需任何额外的训练即可实现真实且一致的结果。

方法概述:

使用扩散模型批量处理低质量 (LQ) 视频,并在每批中随机采样关键帧。(a) 在扩散去噪过程开始时,分层潜在扭曲通过关键帧之间的潜在扭曲在全局提供粗略的形状指导,并通过在批次内传播这些潜在扭曲在局部提供粗略的形状指导。(b) 在大部分去噪过程中,标记在自注意力层之前合并。对于下采样块,使用光流来查找标记之间的对应关系,对于上采样块,利用余弦相似度。这种混合流引导、空间感知的Token合并通过利用流和空间信息准确地识别Token之间的对应关系,从而增强Token级别的整体一致性。

分层潜在变形

无需任何训练,分层潜在变形即可提供全局和局部形状指导,并可以通过增强潜在空间中的时间稳定性来实现跨帧的一致性。

混合空间感知Token合并

在自注意力层之前,利用光流和余弦相似性匹配相似的Token,提高时间一致性。

自注意力层之前的混合空间感知令牌合并通过使用 UNet 的下行块中的光流和上行块中的**余弦相似性**来匹配相似的令牌,从而提高了时间一致性。

令牌对应关系

通过光流和余弦相似性找到不同的对应关系,采用混合方法提高效果。

通过余弦相似度和光流找到对应关系。在去噪过程开始时,UNet下块中的潜在噪声太大,余弦相似性无法有效,而从 LQ 帧估计的光流仍然可靠。流和余弦相似度通常会识别不同的对应关系,因此混合方法更有效。

实操部署

为了方便访问huggingface不方便的朋友,关于DiffIR2VR-Zero的代码和模型文件,已打包好了,关注【魔方AI空间】,回复“111”即可领取!!

  1. 安装依赖

# clone this repo
git clone https://github.com/jimmycv07/DiffIR2VR-Zero.git
cd DiffIR2VR-Zero

# create environment
conda create -n diffir2vr python=3.10
conda activate diffir2vr
pip install -r requirements.txt
  1. 下载模型文件

请按照以下文件夹结构放置预训练权重。

weights
└─── gmflow_sintel-0c07dcb3.pth
└─── v2.pth
└─── v2-1_512-ema-pruned.ckpt
  1. 推理命令

视频去噪

python -u inference.py \
--version v2 \
--task dn \
--upscale 1 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/noise_50/flamingo \
--output results/Denoise/flamingo  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)" \
--better_start 

视频超分

python -u inference.py \
--version v2 \
--task sr \
--upscale 4 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/BDx4/rhino \
--output results/SR/rhino  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)" 

推荐阅读

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、ChatGPT等大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AIGC模型、AIGC数据集和源码等

那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:

2、Stable Diffusion XL核心基础知识,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260

3、Stable DiffusionV1-V2核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634

4、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1上手构建ControlNet高级应用等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126

5、LoRA系列模型核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126

6、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布

码字不易,欢迎大家多多点赞:

AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114

7、10万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布

码字不易,欢迎大家多多点赞:

算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址(希望大家能给个star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

8、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761

9、GAN网络核心基础知识、深入浅出解析GAN在AIGC时代的应用等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306

10、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。


WeThinkIn
Rocky相信人工智能,数据科学,商业逻辑,金融工具,终身成长,以及顺应时代的潮流会赋予我们超能力。
 最新文章