我的论文重点关注生成模型(generative models)及其在离散数据(discrete data)中的应用。我们提出了新颖的算法,这些算法将最先进的生成模型的见解与离散数据类型的领域特定知识(domainspecific knowledge)相结合。这些算法旨在增强与训练数据的属性相似性(property similarity),提高数据有效性,并提高生成输出的整体质量。
我的论文的第一部分研究了使用上下文无关语法(context-free grammar)将几何图像(geometric images)转换为离散表示。我们讨论了在大型搜索空间(large search space)中识别合适表示的有效且可扩展的技术。
我的论文的第二部分研究了变分自动编码器 (Variational Autoencoders, VAE) 在恢复嵌入在低维流形(manifold)中的高维数据时的行为,评估了它们恢复流形及其上的数据密度的能力。将我们对 VAE 的探索扩展到离散数据领域,特别是在分子数据生成(molecular data generation)中,我们发现一种增强 VAE 对连续数据的流形恢复的方法也显着改善了离散数据生成。我们使用 ChEMBL 数据集和两个较小的蛋白质靶标活性分子(active molecules for protein targets)数据集研究了它的优点和局限性。
最后,为了解决生成稳定三维分子(3D molecules)的难题,该论文将不可微分化学预言模型——GFN2-xTB 融入去噪过程,以改善几何形状和稳定性。该方法已在 QM9 和 GEOM 等数据集上得到验证,表明生成的分子具有更高的稳定率。
论文题目:Generative Models for Structured Discrete Data with Application to Drug Discovery
作者:Chenghui Zhou
类型:2024年博士论文
学校:Carnegie Mellon University(美国卡内基梅隆大学)
下载链接:
链接: https://pan.baidu.com/s/1ld2XoDYFGaBpKAS_21HmyQ?pwd=wg9g
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
生成模型通过学习训练数据的分布来生成新的数据点。它们在许多领域有广泛的应用,例如计算机视觉 [Goodfellow et al., 2014, Oord et al., 2016, 2017, Vahdat and Kautz, 2020]、自然语言处理 [Devlin et al., 2018, Radford et al., 2019]。一些生成模型的例子包括生成对抗网络(GAN)[Goodfellow et al., 2014]、变分自编码器(VAE)[Kingma and Welling, 2013]、扩散模型 [Ho et al., 2020, Song et al., 2020a, Song and Ermon, 2019, Song et al., 2020b]、自回归模型和归一化流 [Rezende and Mohamed, 2015] 等。生成模型将某些变量从一个分布(通常是高斯分布)转换到一个目标分布,而目标分布是训练数据集所属的分布。Goodfellow 等人(2016)指出,许多现实世界的数据(如图像和文本)都存在于嵌入在高维空间中的低维流形上。因此,恢复数据所在的低维流形是学习数据分布的重要步骤。生成建模还与表示学习 [Bengio et al., 2013] 相关,其中通过学习输出数据分布的过程中推断出一个低维潜在表示,像 VAE 就是一个例子。
生成模型有许多著名的应用,如图像和语言。尤其是条件生成,作为一种有用的功能,已被广泛应用于商业领域。例如,图像修复模型 [Yu et al., 2018, Lugmayr et al., 2022] 能够填补图像中丢失或损坏的像素,语言条件的图像生成模型(如 Stable Diffusion [Rombach et al., 2022] 和 Dall-E [Ramesh et al., 2021])能够根据简单的指令生成超现实的图像,而语言翻译功能已经无处不在于我们的数字生活中。生成模型还对程序生成和药物发现等应用带来了变革。在代码生成的基础模型中,如 Code Llama [Roziere et al., 2023] 和 AlpahCode [Li et al., 2022],现在已经能够解决竞争级别的编程问题,尽管结果并不总是可靠。在药物发现领域,机器学习的应用也取得了巨大进展。AlphaFold [Jumper et al., 2021] 可以预测蛋白质的 3D 结构,基于氨基酸序列,并且在结构预测的关键评估(CASP)竞赛中排名第一,显著超过了第二名的竞争者。DiffDock [Corso et al., 2022] 将扩散模型应用于蛋白质对接的姿态生成问题,超越了所有以前的方法,包括先前基于搜索的最先进方法。大量生成模型的应用为我们的现代世界带来了真正的技术变革。
尽管我们在过去几年取得了许多进展,但仍然面临许多挑战。例如,幻觉(hallucination)是生成模型中一个常见的问题,它表现为大型语言模型中的错误回答,在药物发现中则表现为生成的分子在自然界中不存在。如今,生成模型通常具有极大的规模,参数量达到数万亿,因此它们依赖大量优质数据。本文将探索生成建模的机制,特别是 VAE 的相关机制。本文的另一个重点是改善离散数据的生成,尤其是在分子生成和程序合成方面的直接应用。此外,我们还探讨能否利用连续数据生成方面的进展和理解来改善离散数据的生成。
生成模型的应用通常涉及生成符合特定目标的全新数据——无论是要与训练数据在属性上相似,还是要实现某些条件或无条件的目标。在本文中,我们将深入探讨帮助生成模型实现这些目标的方法。本文的两个核心主题是:i)研究当前生成模型的不足之处,它们如何影响生成质量,以及如何减轻这些影响;ii)如何通过利用领域知识,在计算约束下改善数据生成质量。
以下是本文未来章节的简要总结:
第二章(基于 Zhou 等人 [2021] 的论文),我们研究了一个程序合成问题,该问题涉及离散数据生成的挑战。给定一个几何图像作为输入,项目的目标是生成上下文无关文法(CFG)程序,这些程序可用于重建原始图像。在这项工作中,我们将一个非可微的渲染器视为解码器,并学习一个可解释的编码器,该编码器利用 CFG 文法生成几何图像的低维程序表示。
第三章(基于 Koehler 等人 [2021] 的论文)研究了 VAE 在流形和密度恢复中的行为——对于非线性合成数据,我们发现 VAE 并不保证能够恢复高维训练数据所处的底层流形。我们进一步研究了多阶段 VAE 的效果,并展示了它可以改善合成数据上的流形恢复。
第四章(基于 Zhou 和 Poczos [2023] 的论文),我们将多阶段 VAE(已证明能改善合成数据的流形恢复)应用于分子生成任务。我们展示了在两个任务中的生成分子属性的改善:一个基于 ChEMBL 数据集 Mendez et al. [2019] 的通用生成任务,以及一个针对蛋白质靶标的生成任务,在两个小型分子数据集上进行了微调。
第五章,我们将一个非可微的化学预言器纳入去噪过程,该预言器提供分子中每个原子的净力信息,并利用这些信息指导反向扩散采样过程,以实现生成样本的更好稳定性。
每个形状编码都位于其所代表的图像之上。
这是语法编码树 LSTM 工作的示例。顶层图像演示了图像堆栈,底层演示了语法堆栈。蓝色、橙色、黄色和绿色的 LSTM 单元分别根据 CFG 规则 2.1、2.2、2.3 和 2.4 生成语法标记。在实现中,我们可以通过在 LSTM 的输出中添加掩码来限制输出空间,并使无效选项的采样概率接近于零。
a) 我们展示每个数据集中的一个目标图像,并在下面附上其正确的程序。右边是我们的算法的重建输出程序和三个变体,每个变体都删除了一个设计组件。奖励在重建图像之上。(b)我们算法的一些重建示例输出程序。每行代表一个数据点。五列最左边的图像是目标图像,右边的四列是四个样本的重建输出。用红色突出显示的最终输出具有最高奖励。
多阶段 VAE 概述。在第一阶段,VAE 在分子数据 xi 上进行训练,并从 xi 中获得潜在变量 z1i。后级 VAE 在前级 VAE 的潜在变量上进行训练。第 s 级 VAE 的 zis 在训练期间成为第 s + 1 级 VAE 的输入。后级 VAE 的输入维度等于输出维度。在采样期间,我们采样 z ∼ N(0, I) 并从解码器获得 z′s i。后续阶段 VAE 解码器的输出用作前级 VAE 解码器的输入,直到潜在变量在第一级 VAE 中被解码为新的分子 x′i。
左图:现实生活中的水分子,两个 HO 键之间形成 104.5 度角。该分子是极性的且稳定。右图:线性水分子,非极性且不稳定。我们的目标是在采样过程中优化分子几何形状,因为生成后优化分子几何形状可能会改变生成的分子的性质。
具有和不具有力正则化的分子生成的可视化。使用不可微分化学 Oracle xTB 包估计指导。我们仅开始从时间步 t 到 0 添加指导,并根据实验结果以及先前文献将 t 选为 400 [Han et al.,2024]。