开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

文摘 2024-08-04 23:04 浙江

简介

DiffIR2VR-Zero：一种创新的零样本视频恢复技术，该技术利用预训练的图像恢复模型，解决了传统方法在不同场景下泛化能力不足的问题。

通过关键帧与局部帧的分层合并策略和混合对应机制，该方法在无需重新训练的情况下，实现了卓越的视频恢复效果，甚至在极端退化条件下超越了训练模型。这项研究不仅提升了视频恢复的效率和适用性，也为高质量视频输出需求的领域带来了技术革新。

项目主页：https://jimmycv07.github.io/DiffIR2VR_web/

官方演示：https://huggingface.co/spaces/Koi953215/DiffIR2VR

视频超分辨率

(a) 传统的基于回归的方法（例如 FMA-Net）仅限于训练数据域，并且在遇到域外输入时往往会产生模糊的结果。(b) 虽然将基于图像的扩散模型（例如 DiffBIR）应用于各个帧可以生成真实的细节，但这些细节通常缺乏帧间的一致性。(c) DiffIR2VR-Zero方法利用图像扩散模型来恢复视频，无需任何额外的训练即可实现真实且一致的结果。

方法概述：

使用扩散模型批量处理低质量 (LQ) 视频，并在每批中随机采样关键帧。(a) 在扩散去噪过程开始时，分层潜在扭曲通过关键帧之间的潜在扭曲在全局提供粗略的形状指导，并通过在批次内传播这些潜在扭曲在局部提供粗略的形状指导。(b) 在大部分去噪过程中，标记在自注意力层之前合并。对于下采样块，使用光流来查找标记之间的对应关系，对于上采样块，利用余弦相似度。这种混合流引导、空间感知的Token合并通过利用流和空间信息准确地识别Token之间的对应关系，从而增强Token级别的整体一致性。

分层潜在变形

混合空间感知Token合并

在自注意力层之前，利用光流和余弦相似性匹配相似的Token，提高时间一致性。

自注意力层之前的混合空间感知令牌合并通过使用 UNet 的下行块中的光流和上行块中的**余弦相似性**来匹配相似的令牌，从而提高了时间一致性。

令牌对应关系

通过光流和余弦相似性找到不同的对应关系，采用混合方法提高效果。

通过余弦相似度和光流找到对应关系。在去噪过程开始时，UNet下块中的潜在噪声太大，余弦相似性无法有效，而从 LQ 帧估计的光流仍然可靠。流和余弦相似度通常会识别不同的对应关系，因此混合方法更有效。

实操部署

为了方便访问huggingface不方便的朋友，关于DiffIR2VR-Zero的代码和模型文件，已打包好了，关注【魔方AI空间】，回复“111”即可领取！！

安装依赖

# clone this repo
git clone https://github.com/jimmycv07/DiffIR2VR-Zero.git
cd DiffIR2VR-Zero

# create environment
conda create -n diffir2vr python=3.10
conda activate diffir2vr
pip install -r requirements.txt

下载模型文件

请按照以下文件夹结构放置预训练权重。

weights
└─── gmflow_sintel-0c07dcb3.pth
└─── v2.pth
└─── v2-1_512-ema-pruned.ckpt

推理命令

视频去噪

python -u inference.py \
--version v2 \
--task dn \
--upscale 1 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/noise_50/flamingo \
--output results/Denoise/flamingo  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)" \
--better_start

视频超分

python -u inference.py \
--version v2 \
--task sr \
--upscale 4 \
--cfg_scale 4.0 \
--batch_size 10 \
--input inputs/BDx4/rhino \
--output results/SR/rhino  \
--config configs/inference/my_cldm.yaml \
--final_size "(480, 854)" \
--merge_ratio "(0.6, 0)"

推荐阅读

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球，AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台，涉及AI绘画、AI视频、ChatGPT等大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向，内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AIGC模型、AIGC数据集和源码等。

那该如何加入星球呢？很简单，我们只需要扫下方的二维码即可。知识星球原价：299元/年，前200名限量活动价，终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠：

2、Stable Diffusion XL核心基础知识，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布

码字不易，欢迎大家多多点赞：

Stable Diffusion XL文章地址：https://zhuanlan.zhihu.com/p/643420260

3、Stable DiffusionV1-V2核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布

码字不易，欢迎大家多多点赞：

Stable Diffusion文章地址：https://zhuanlan.zhihu.com/p/632809634

4、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1上手构建ControlNet高级应用等全维度解析文章正式发布

码字不易，欢迎大家多多点赞：

ControlNet文章地址：https://zhuanlan.zhihu.com/p/660924126

5、LoRA系列模型核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布

码字不易，欢迎大家多多点赞：

LoRA文章地址：https://zhuanlan.zhihu.com/p/639229126

6、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布

码字不易，欢迎大家多多点赞：

AIGC面经文章地址：https://zhuanlan.zhihu.com/p/651076114

7、10万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布

码字不易，欢迎大家多多点赞：

算法工程师三年面试五年模拟文章地址：https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址（希望大家能给个star）：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

8、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识，从0到1搭建AI绘画框架，从0到1使用AI绘画框架的保姆级教程，深入浅出介绍AI绘画框架的各模块功能，深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布

码字不易，欢迎大家多多点赞：

AI绘画框架文章地址：https://zhuanlan.zhihu.com/p/673439761

9、GAN网络核心基础知识、深入浅出解析GAN在AIGC时代的应用等全维度解析文章正式发布！

码字不易，欢迎大家多多点赞：

GAN网络文章地址：https://zhuanlan.zhihu.com/p/663157306

10、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本，大家可以关注公众号WeThinkIn，并在后台【精华干货】菜单或者回复关键词“YOLO” 进行取用。

http://mp.weixin.qq.com/s?__biz=Mzg4NDYwOTUwNA==&mid=2247488108&idx=2&sn=475e067ddc8b436a70df79eac9e83ab2

WeThinkIn

Rocky相信人工智能，数据科学，商业逻辑，金融工具，终身成长，以及顺应时代的潮流会赋予我们超能力。

最新文章

一文看完多模态 | 从视觉表征到多模态大模型

实践教程｜YOLOv8 OBB实现自定义旋转对象检测

Rocky助理招聘和AIGCmagic社区合伙人招募

「红杉资本」发布年度AI行业报告：o1改变大模型行业！重新定义Saas：服务即软件

深度学习一块GPU都没有，怎么做项目研究？

Rocky助理招聘和AIGCmagic社区合伙人招募

AIGC时代算法工程师的面试秘籍（第二十五式2024.10.21-11.3） |【三年面试五年模拟】

Rocky助理招聘和AIGCmagic社区合伙人招募

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》建议每个人都要读一遍

大涨 800 亿美元，马斯克甩了三张「王炸」

Rocky助理招聘和AIGCmagic社区合伙人招募

Adobe神级AI视频媲美Sora！拖拽一键秒生大片，最强PS震撼设计圈

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

Rocky助理招聘和AIGCmagic社区合伙人招募

聊一聊大模型六小虎公司，目前的生存现状

4K分辨率生成！超强杀器SANA：线性扩散模型+文生图+高分辨率+从头训练的极佳范本！

Rocky助理招聘和AIGCmagic社区合伙人招募

大模型推理加速技术的学习路线是什么?

2w字综述 | 一文掌握Video Diffusion Model视频扩散模型

Rocky助理招聘和AIGCmagic社区合伙人招募

微软开源爆火1.58bit大模型推理框架！千亿参数模型量化后单CPU可跑，速度每秒5-7个token

使用PyTorch进行小样本学习的图像分类

Rocky助理招聘和AIGCmagic社区合伙人招募

零基础万字长文实践diffusion模型

一文详解AutoEncoder在图像生成和多模态大模型中的应用

2024年了,Diffusion模型还有什么可做的？

自回归视觉生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&腾讯等重磅发布CAR

SD和Sora们背后的关键技术！一文搞懂所有 VAE 模型（4个AE+12个VAE原理汇总）

从图像到视频：浅谈Video Diffusion Models背后的底层原理

值得细读的8个视觉大模型生成式预训练方法

又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

MSRA古纾旸：2024年，视觉生成领域最重要的问题有哪些？

ECCV'24｜直接生成 4K图像！ PixArt-Σ：Weak-to-Strong 训练的 4K 高清文生图模型

视频和图像分割：深入探讨 SAM2

MAR(Masked AutoRegressive): 破除封建迷信——谁说自回归图像生成一定需要 VQ的！

AIGC时代算法工程师的面试秘籍（第二十四式2024.9.30-10.20） |【三年面试五年模拟】

AIGCmagic社区合伙人招募（数字人方向优先！）

Rocky助理招聘和AIGCmagic社区合伙人招募

Rocky Ding：AI行业从业三年半，聚焦AIGC时代的底层思考与逻辑

Rocky助理招聘和AIGCmagic社区合伙人招募

AIGC时代算法工程师的面试秘籍（第二十三式2024.9.16-9.29） |【三年面试五年模拟】

Rocky助理招聘和AIGCmagic社区合伙人招募

AIGC时代算法工程师的面试秘籍（第二十二式2024.9.2-9.15） |【三年面试五年模拟】

AIGCmagic社区共建邀请函！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

简 介

视频超分辨率

方法概述：

分层潜在变形

混合空间感知Token合并

令牌对应关系

实操部署

安装依赖

下载模型文件

推理命令

推荐阅读

1、加入AIGCmagic社区知识星球

2、Stable Diffusion XL核心基础知识，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布

3、Stable DiffusionV1-V2核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布

4、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1上手构建ControlNet高级应用等全维度解析文章正式发布

5、LoRA系列模型核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布

6、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布

7、10万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布

9、GAN网络核心基础知识、深入浅出解析GAN在AIGC时代的应用等全维度解析文章正式发布！

10、其他

简介