博士论文 | MIT 2022 | 几何表示的深度学习 138页

文摘   2024-11-30 22:58   广东  

虽然深度学习已成功应用于计算机图形学(computer graphics)和视觉领域的许多任务,但标准学习架构通常针对密集且规则的形状表示进行操作,例如像素或体素网格。另一方面,数十年的计算机图形学和几何处理研究已经产生了使用没有这种规则结构的表示的专门算法和工具。在本文中,我们重新审视了几何图形中的传统方法,提出了与常见几何表示(geometry representations)直接兼容的深度学习管道和归纳偏差(inductive biases),而不依赖于简单的统一结构。

论文题目:Deep Learning on Geometry Representations

作者Dmitriy Smirnov

类型:2022年博士论文

学校:Massachusetts Institute of Technology(美国麻省理工学院

下载链接:

链接:https://pan.baidu.com/s/1pPB5Eh7V-e6Bl7rYvl_vIQ?pwd=k4k1

硕博论文汇总:

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5


在过去十年中,硬件的不断发展、训练数据的大规模可用性以及算法的进步推动了深度学习在各种应用中的成功。神经网络能够广泛地处理不完整、混乱和模糊的输入,从而产生有用且一致的输出。

计算机图形学和视觉领域也不例外,深度学习的蓬勃发展,数据驱动方法如今已成为许多任务的标准。在这些领域中,最卓有成效的深度学习架构是卷积神经网络 (CNN)。如今,CNN 在图像分类 [Dai+21]、分割 [Zha+20;Dut+20;Yu+20]、物体检测 [WH21;BWL20] 和图像到图像转换 [Iso+17] 等任务中取得了最先进的成果。

二维和三维几何的一些常见表示。虽然每种表示都有其优点和缺点,但通常直观地与标准深度学习架构兼容的表示(例如像素或体素网格)并不是下游任务所需的表示。在本文中,我们考虑基于深度学习的方法来处理或生成缺乏这种密集规则结构的格式的数据。

然而,CNN 是在栅格表示(例如,图 1-1 中的像素和体素网格)上运行的。网格结构从根本上构建在卷积中,作为信息在网络层之间和像素之间传输的机制。这种结构被用来优化 GPU 硬件性能,许多现成的数据集都由格式化为像素或体素网格的示例组成。

由于各种原因,栅格表示法易于使用。它们与标准输入和输出设备(如相机传感器和屏幕)兼容,并且是呈现不同结构和拓扑的多样化视觉内容的有效方法。因此,CNN 通过以简单的欧拉方式处理数据,将固定操作应用于密集网格,从而利用合理的归纳偏差。

另一方面,拉格朗日表示使用随形状移动的稀疏参数集(即控制点)来表达几何图形。这种表示具有明显的优势。通过将形状表示为基元集合,我们可以轻松地应用变换并以任意分辨率进行渲染,同时仅存储稀疏表示。此外,参数表示对于高级推理非常有效,例如发现共同的底层结构和估计形状之间的对应关系,促进检索、探索和风格/结构转换的工具。它们使用传统软件编辑起来很直观,与分辨率无关,并且存储效率高。

已经开发了许多工具、算法和数学框架来创作、操作和分析此类拉格朗日内容。艺术家、工程师和动画师使用标准 CAD 和 3D 建模软件。模拟依赖于使用网格的有限元分析。然而,通过将与我们的机器学习方法兼容的形状模态限制为欧拉网格,我们放弃了这些成熟工具中的许多见解和技术。

在本论文中,我们提出将形状表示视为一等公民,从而设计深度学习算法。我们不会将标准架构、损失函数和训练算法视为理所当然,从而接受各自的输入和输出形状模式,而是考虑比像素更丰富、更适合应用的其他几何原子单元。这种范式转变促使我们对深度学习之前的传统方法和应用进行现代化改造。特别是,我们借鉴了度量几何、几何测度理论、谱几何和动画等领域的思想,开发定制的损失函数、架构和训练管道,使深度学习成为处理视觉数据的从业者的更有用的工具。

本论文探讨的形状表示概述。我们考虑深度学习管道,以常见和有用的格式接收几何图形作为输入或生成几何图形作为输出。特别是,我们提出了一个学习三角形网格特征的系统,以及输出参数化面片和图元、带边界的隐式曲面和精灵的管道。

全分辨率 MIT 动画数据集 [Vla+08] 上的网格分割结果。数据集中的每个网格包含 20,000 个面(10,000 个顶点)。我们在左下角展示了一个示例地面真实分割。与之前将每个网格下采样 10 倍以上的作品相比,我们在训练和测试时都能有效地处理密集网格。

HodgeNet 中的数据流;黄色框包含可学习的参数。

倒角距离(上图)的缺点由我们的损失(下图)解决。在 a 中,在贝塞尔曲线(橙色)的参数空间中均匀采样会导致在高曲率区域过度采样,从而导致到线段的倒角距离较低(蓝色)。我们的方法产生了空间均匀的表示。在 b 中,尽管法线未对齐,但两组近乎正交的线段的倒角距离接近于零。我们明确测量了法线对齐。

我们的管道概述——字体矢量化和 3D 抽象。

我们的数据生成和增强(a)和学习(b)管道的概述。

在二维欧几里得度量下最小化质量范数 ‖𝑑𝑓 + 𝛼‖1 可得到连接两个边界点的线段 (b)。使用我们自定义的依赖于数据的背景度量,我们可以将半圆重建为电流 (e)。𝛼 显示为矢量场 (a),自定义度量由定向椭圆体表示 (d,未按比例绘制)。相应的函数 𝑓 显示于右侧 (c 和 f)。

我们的网络架构概述,用于最小表面优化和单表面重建(顶部)以及形状空间学习(底部)。首先使用随机傅里叶特征对输入点𝑥进行编码。然后,这些特征可选地与对应于形状身份和边界的潜在代码连接,最后解码为标量输出。

概述。我们联合学习精灵字典(表示为由生成器解码的一组潜在代码)以及将帧嵌入潜在代码网格(或锚点)的编码器网络。通过将锚点嵌入与字典代码进行比较,我们可以为每个网格单元分配一个精灵。我们的编码器还为每个锚点输出一个二进制开关,以打开和关闭精灵。合成后,我们获得输入的重建。我们的自监督训练优化了重建损失。

具有局部锚点的分层精灵分解。我们为每个锚点分配最多一个精灵,并预测每个放置在其锚点周围的精灵的局部变换。为了允许精灵之间的遮挡,我们使用多个精灵层,我们将它们从后往前组合以获得最终图像。

编码器架构。

微信群

图科学实验室Graph Science Lab
分享有关图理论、图表示学习、图神经网络、图+交叉学科(生物、化学、物理 ...)、图+交叉算法(DL、RL、NLP、CV ...)最新科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。秉持文理兼修,也分享人文作品。欢迎持续关注。
 最新文章