来源:专知 本文约1000字,建议阅读5分钟
我们开发了生成模型,使我们能够创建更多的合成数据或利用这些模拟器解决反问题。
**提出了截断边缘神经比率估计 (Truncated Marginal Neural Ratio Estimation) [第二章]:**一种基于模拟的推理方法,通过使用现有的对比学习技术,提高了估计似然与证据比率的模拟效率。我们提出了在多个回合中近似后验分布的方法,其中下一回合通过截断先验(基于前一回合的结果)来选择性生成后验高密度区域的新训练数据。通过截断先验来提出新训练数据尤其有用,因为它使我们能够在截断区域中进行经验预期覆盖测试,从而对后验分布估计的可信度提供一定的指示。而其他模拟高效的序列方法通常无法执行相同的测试。论文重点在于近似后验的几个边缘化版本,这有助于消除干扰参数。 **开发了 swyft:在 Python 中实现的截断边缘神经比率估计 [第三章]:**swyft 是一个在 Python 的 PyTorch 框架中实现了截断边缘神经比率估计(以及其他一些算法)的软件包。除了主算法外,它还引入了一种样本缓存技术,使用户能够在多个推理中利用截断先验进行推理并重用每种情况下的模拟,从而进一步节省计算成本。它还依赖现有的软件 dask 和 zarr 分别自动化模拟的并行化和集群存储。 **提出了对比神经比率估计 (Contrasive Neural Ratio Estimation) [第四章]:**一种新颖的对比学习方法,通过训练分类器来区分一个参数与模拟观测联合抽取的样本与从边缘分布中抽取的 k 个替代样本。我们的公式推广了现有的二元和多类对比基于模拟的推理方法,用于估计似然-证据比率,同时消除了之前多类版本中的固有偏差。我们对超参数提出了建议,表明由于我们消除了这种固有偏差,因此基于重要性采样的测试适用于我们的算法,还探索了使用互信息作为不同估计器之间的平均后验质量的排序标准。 **研究了平衡基于模拟的推理以获得保守后验分布 [第五章]:**基于模拟的推理在确定后验估计的准确性方面方法有限。一种方法是测试后验是否平均表现出过于自信或保守(即比真实值更窄或更宽)。这通常通过进行经验预期覆盖测试来完成。本文通过使用拉格朗日乘数在损失函数中引入一个平衡项,该项已被证明可以在似然-证据比率估计中增加保守性。本文将平衡项推广到其他基于模拟的推理方法,通过将其与卡方分布(χ²)散度联系来解释其行为,并为使用正则流 (Normalizing Flows) 的后验估计器提供一种初始化方案,使其在设计上更加保守。 **开发了使用广义 Kullback-Leibler 散度的基于模拟的推理 [第六章]:**在基于模拟的推理中,设计用于近似后验分布的替代模型的方法通常是根据它们估计的量命名的,如神经后验估计 (Neural Posterior Estimation)、神经比率估计 (Neural Ratio Estimation) 等。我们打破了这一传统,提出了一个目标函数,可以在一个混合设置中同时学习后验的密度估计、分布与后验之间的比率估计,或两者的组合。我们通过优化一种广义 Kullback-Leibler 散度来实现这一点,该散度考虑了非归一化分布中的归一化常数。除了理论开发外,我们还通过基准问题的实验表明,混合建模在某些情况下具有优势。
**引入 FlowMM:使用黎曼流匹配生成材料 [第七章]:**一对执行晶体结构预测和从头生成的生成模型。这意味着从元素列表中估计稳定的晶体结构,并分别提出元素和晶体结构。我们使用分数坐标、晶胞以及原子类型来对材料建模。成功地应用此模型需要将黎曼流匹配推广到适合晶体固有的对称性。此外,我们通过经验拟合晶格基分布,为生成合理的晶胞提供了强烈的归纳偏差。综合起来,我们创造了一个极为高效的生成模型,在晶体结构预测和从头生成两方面均优于竞争模型。
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU