UC伯克利开源!深度估计、光流、分割大一统!

科技   2024-11-18 07:03   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Scaling Properties of Diffusion Models for Perceptual Tasks

作者:Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik

机构:University of California, Berkeley

原文链接:https://arxiv.org/abs/2411.08034

代码链接:https://github.com/scaling-diffusion-perception/scaling-diffusion-perception

官方主页:https://scaling-diffusion-perception.github.io/

1. 导读

在本文中,我们认为,迭代计算与扩散模型提供了一个强大的范式,不仅生成,而且视觉感知任务。我们在图像到图像转换的框架下统一了深度估计、光流和模型分割等任务,并展示了扩散模型如何受益于这些感知任务的缩放训练和测试时间计算。通过对这些缩放属性的仔细分析,我们制定了计算优化的训练和推理方法来缩放视觉感知任务的扩散模型。我们的模型使用明显更少的数据和计算,实现了与最先进方法相媲美的性能。

2. 引言

扩散模型已成为生成图像和视频的强大技术,同时展现出卓越的扩展性能。然而,扩散模型同样可用于下游预测,解决逆视觉问题。在本文中,我们提出了一个统一框架,利用单个扩散模型执行深度估计、光流估计和无模态分割。

先前的工作,如Marigold、FlowDiffuser和pix2gestalt,分别展示了将图像扩散模型重新用于各种逆视觉任务的潜力。在此基础上,我们进行了广泛的实证研究,为深度估计建立了扩展幂律,并展示了其向其他感知任务的迁移能力。利用这些扩展幂律的见解,我们为扩散训练和推理制定了计算最优方案。我们首次表明,高效扩展扩散模型的计算能力能显著提升下游感知任务的性能。

近期工作还聚焦于扩展测试时间的计算能力,以增强现代大型语言模型(LLM)的能力,OpenAI的o1模型便是明证。正如Noam Brown所指出的,“事实证明,在扑克游戏中,让机器人仅思考20秒,其性能提升效果与将模型规模扩大100,000倍并训练100,000倍时长相当。”在我们的实验中,我们实现了在训练期间与测试期间为扩散模型分配更多计算能力之间的类似权衡。

我们通过利用扩散的迭代和随机性质来增加去噪步骤的数量,从而扩展测试时间的计算能力。通过为早期去噪步骤分配更多计算能力,并集成多个去噪预测,我们在这些感知任务上始终如一地实现了更高的准确性。我们的结果证明了在有限计算预算下,为逆视觉问题扩展测试时间计算能力的益处,为生成模型的传统以训练为中心的扩展范式带来了新视角。推荐课程:单目深度估计方法:算法梳理与代码实现

3. 统一感知任务

我们通过视觉感知任务的扩散模型展示了利用迭代反馈计算的有效性。我们对堆栈所有层的训练/测试时计算扩展规则进行了深入研究,包括预训练、微调和扩散推理。具体来说,我们在单目深度估计任务上执行我们的研究。我们展示了如何转移为深度估计导出的缩放定律,以提高任务的性能,例如用于训练和推理的光流或模型分割。最后,我们应用我们所有的扩展策略,在感知任务上有效地训练通才专家混合模型,在各种基准测试中实现最先进的结果。

4. 训练计算

我们为感知任务的生成性预训练和扩散模型的微调导出标度律。我们在ImageNet-1K数据集上预先训练不同大小的DiT模型,用于类条件图像生成。当我们通过线性增加隐藏维度和层数来增加模型大小时,我们观察到清晰的幂律缩放行为。

除了预训练之外,我们还推导了用于在单目深度估计的下游任务上微调的比例法则。我们通过将深度估计任务设定为图像到图像的转换来微调预训练的DiT模型。我们微调我们的模型,用于条件去噪扩散生成,在Hypersim数据集上训练。我们表明,较大的密集抖动模型可预测地收敛到较低的微调损失。我们还观察到微调损失比例定律和验证度量比例定律之间有很强的相关性。

扩展测试时间计算已经被探索用于自回归LLM,以提高长时间推理任务的性能。设计的扩散模型允许测试时计算的有效扩展。首先,我们可以简单地增加去噪步骤的数量,以增加推断的计算时间。因为我们是在估计确定性输出,所以我们可以初始化多个噪声潜伏,并集合预测以获得更好的估计。最后,我们还可以通过修改噪声方差调度来重新分配低频和高频去噪的测试时间计算。

缩放扩散推断的最自然的方式是通过增加去噪步骤。由于模型被训练为在不同的时间步长对输入进行去噪,我们可以在测试时间缩放扩散去噪步骤的数量,以产生更精细、更准确的预测。这种由粗到细的去噪范例也反映在生成性情况中,并且我们可以通过增加去噪步骤的数量来利用它用于区别性情况。我们通过在测试时简单地增加扩散采样步骤的数量,在深度估计验证度量中显示了清晰的幂律缩放行为。

最后,我们可以通过在去噪过程的不同点增加计算使用来扩展测试时计算。在扩散噪声调度器中,我们可以为在总扩散时间步长上应用于图像的高斯噪声的变化定义一个调度。调整噪声方差调度允许通过将更多计算分配给噪声调度中较早或较晚的去噪步骤来重新组织计算。我们实验了三种不同的DDIM噪声水平设置:线性、比例线性和余弦。余弦调度从破坏过程的中间开始下降,确保图像不会像线性调度那样破坏得太快。图7示出了在固定计算预算下,余弦噪声方差调度在深度估计任务上优于DDIM的线性调度。

5. 所有任务放到一起

我们训练一个能够执行深度估计、光流估计和模型分割任务的统一的通用模型。我们应用了所有的训练和推理尺度技术,突出了我们方法的可推广性。

为了训练我们的通才模型,我们修改了DiT-XL架构,用一个单独的

该模块将每个VAE嵌入路由到基于感知任务的特定输入卷积层。这确保了DiT-XL模型能够在微调期间区分特定于任务的嵌入。在密集模型的初始微调之后,我们将其升级到DiT-XL-8E2A模型,并继续微调新的专家混合模型。

6. 总结

我们的结果证明了我们的训练和测试时间缩放策略的有效性,消除了使用在互联网规模数据集上训练的预训练模型来实现扩散模型中的高质量视觉感知的需要。我们希望在迭代生成范式的规模训练和测试时间计算方面激发未来的工作。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章