TPAMI 2024 | 通过扰动辅助样本合成的新型不确定性量化

文摘   2024-11-15 19:02   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Novel Uncertainty Quantification through Perturbation-Assisted Sample Synthesis

通过扰动辅助样本合成的新型不确定性量化

作者:Yifei Liu; Rex Shen; Xiaotong Shen

论文创新点

  1. 新型PAI框架:提出了Perturbation-Assisted Inference (PAI)框架,用于复杂数据场景中的不确定性量化。
  2. PASS合成数据技术:开发了Perturbation-Assisted Sample Synthesis (PASS)方法,通过生成模型和数据扰动增强隐私和数据多样性。
  3. 统计推断的创新:PAI框架在无需先验分布知识的情况下提供有效的统计推断,扩展了统计推断到非结构化和多模态数据领域。

摘要

本文介绍了一种新颖的扰动辅助推断(Perturbation-Assisted Inference, PAI)框架,该框架利用扰动辅助样本合成(Perturbation-Assisted Sample Synthesis, PASS)方法生成的合成数据。该框架专注于复杂数据场景中的不确定性量化,特别是涉及非结构化数据并利用深度学习模型的场景。一方面,PASS采用生成模型创建与原始数据紧密相似的合成数据,同时通过数据扰动保留其等级属性,从而增强数据多样性并加强隐私保护。通过整合大型预训练生成模型的知识转移,PASS提高了估计精度,通过蒙特卡洛实验获得各种统计数据的精细化分布估计。另一方面,PAI拥有其统计上保证的有效性。在关键推断中,即使没有关于关键分布的先验知识,它也能得出精确的结论。在非关键情况下,我们通过使用独立保留样本进行训练来增强合成数据生成的可靠性。我们通过将PAI应用于图像合成、情感词分析、多模态推断以及预测区间构建等多个领域,展示了PAI在推进复杂数据驱动任务中不确定性量化的有效性。

关键字

  • 不确定性量化
  • 扩散
  • 正规化流
  • 大型预训练模型
  • 多模态
  • 高维度

I. 引言

不确定性量化在科学探索和从数据中得出可靠结论中至关重要,特别是在使用复杂建模技术(如深度神经网络)时。尽管最近的进展展示了人工智能在促进数据驱动发现方面的潜力,但在生物医学和社会科学研究等领域出现了可复制性危机,有时导致虚假发现[1]。导致这场危机的一个关键问题是缺乏量化过度参数化模型(如神经网络)不确定性的方法,这些模型优先考虑使用许多不可学习参数(如超参数)的预测精度。因此,这些研究可能变得夸张且不可复制。为了应对这些挑战,我们开发了一个生成推断框架,旨在为任何类型的数据提供不确定性量化。
文献中存在多种不确定性量化方法。[2]、[3]、[4]、[5]等方法评估预测模型结果的不确定性,在对抗性攻击到异常检测[6]、[7]等领域有广泛应用。此外,[8]、[9]等研究调查了大型语言模型在问答任务中的不确定性。然而,像负对数似然这样的主流指标通常忽略了统计基础,如置信度或概率断言,在统计推断框架内。
在统计推断中,不确定性的量化是必要的。像Bootstrap[10]这样的经典技术解决了传统的统计问题。然而,[3]指出,涉及深度网络和非结构化数据的复杂模型中的不确定性仍然较少被探索。一致性推断方法[11]、[12]为有效的不确定性量化提供了实用工具。然而,其有效性受到底层预测模型和一致性分数选择的显著影响,可能导致过于谨慎的推断结果。随着最近的进展,例如[13]使用渐近方法对特征显著性进行假设检验,进行全面的统计不确定性量化变得迫切需要。我们在此关注统计推断,特别是假设检验,它量化了假设检验结果的不确定性或传达了关于预测不确定性的置信声明,如第V节详细说明。
本文介绍了新颖的扰动辅助推断(PAI)框架,采用扰动辅助样本合成(PASS)作为其核心生成器,确保了如果我们使用已知数据生成分布进行蒙特卡洛(MC)模拟的有效性。为了阐明我们方法的核心概念,请想象一下通过机器学习或统计技术计算的统计数据在训练数据集上。这些统计数据可能包括监督学习中的预测结果或假设检验中的检验统计量。通过在模拟原始数据分布的合成数据上生成这些统计数据的多个迭代,我们通过应用相同的分析方法来衡量这些统计数据在具有类似分布的数据集上的变异性。
PASS生成这些合成数据集,而PAI则从它们那里获得可靠的推断,采用蒙特卡洛技术。PASS合成的数据与原始数据紧密相似,包括表格和非结构化数据,如基因表达和文本。其独特优势在于利用预训练的生成模型提高生成精度。侧重于推断,PASS通过数据扰动增强合成数据的多样性和隐私,保留原始样本的等级,支持个性化和数据融合。
PAI框架在统计推断方面是一个重大进步,特别是对于非结构化、多模态和表格数据。它在可靠性和应用范围上超越了传统方法,主要是通过PASS创建的合成数据来模拟任何统计量的分布和属性,并通过蒙特卡洛测试。与需要偏差校正的经典方法不同,这个框架通过近似的数据生成分布推断检验统计量的分布,从而促进了有限样本推断。此外,它通过产生独立的合成样本进行推断,超越了重采样方法。这一功能促进了更广泛的应用,包括数据集成、敏感性分析和个性化,从而将统计推断的范围扩展到新的领域。具体来说,
(1) 非结构化和多模态数据的推断。PAI框架通过合成数据生成,将统计推断的范围从数值数据扩展到非结构化和多模态数据。第V节展示了当PASS通过预训练的生成模型(如正规化流或扩散模型)估计数据生成分布时,PAI的有效性。
(2) 关键推断。PAI为任何关键统计量提供精确推断,同时控制I型错误,这超越了需要知道检验统计量分布的经典方法,如定理2所支持。
(3) 一般推断。PAI框架使得非关键统计量的近似推断成为可能,同时保持对I型错误的控制。它通过使用一个很好地近似数据生成分布的估计分布来实现这一点,如定理1所示。
(4) 考虑模型不确定性。PAI通过将模型不确定性纳入蒙特卡洛实验中进行不确定性评估,从而与常规方法区别开来,得出更可信的结论。
为了展示PAI的能力,我们解决了三个以前未触及的领域的统计推断挑战:(1) 图像合成,(2) 使用DistilBERT[19]的情感分析,以及(3) 基于文本提示的文本到图像生成的多模态推断。此外,我们还将PAI与回归问题中的一致性推断方法[11]进行了对比,以预测不确定性。在这些场景中,PAI量化了涉及超参数优化的生成模型的不确定性,考虑了这种调整在推断过程中的统计不确定性,并利用预训练模型来提高学习数据生成分布的准确性。当代研究强调了在推断中样本分割的重要性,以避免数据挖掘[20],[21]。通过这些应用展示,PAI对图像合成进行了创新的假设检验,情感分析中的单词推断,以及通过稳定扩散技术从不同文本提示生成图像,从而为数值和非结构化数据提供了不确定性量化,这些数据在分析上是不可行的。
本文包括以下各节:第II节建立了PASS的基础,通过蒙特卡洛模拟使任何统计量的分布估计成为可能。第III节介绍了PAI框架和PASS生成器。第IV节提供了PAI框架的统计验证。第V节开发了比较由扩散模型[17],[18]和其他深度生成模型如GLOW[22]和DCGAN[23]生成的合成图像的测试,同时也解决了使用DistilBERT进行情感分析中单词重要性评估和从文本到图像的多模态推断的问题。第VI节介绍了数值实验。本节还对比了PAI方法和一致性推断方法在量化回归问题预测不确定性方面的差异。补充材料包括数值示例的实现细节、技术细节、多变量等级和正规化流的学习理论。

II. 扰动辅助样品合成

给定一个来自累积分布函数(CDF)或数据生成分布的维随机样本,我们估计一个统计量的分布,其中是未知参数的向量,是已知函数的向量,可能是解析不可行的。这里,可以是独立同分布样本或其通过例如潜在正规化流([15], [16])和VAE[24]获得的连续潜在向量表示,用于图像和文本的数值嵌入,如BERT风格的变换器。随后,我们假设是绝对连续的,并使用非结构化数据的连续潜在向量或非连续数据的连续替代品[25]进行下游任务。

A. 样品合成

通过传输生成。为了从累积分布生成一个随机样本,我们构建一个传输将基础分布映射到的分布,最好是简单的,如均匀或高斯分布,其中是来自基础分布的样本。在单变量情况下,我们通过选择并从均匀分布中采样来生成。然而,这种生成方法在多变量情况下不再有效,因为的多变量类比不存在。在这种情况下,重建从映射是具有挑战性的。
生成数据和原始数据之间的联系。如果无关,则可能无法准确代表。当时,如果保留的等级,则保留的等级,这是通过的非减性质来实现的。正如[25]中所争论的,通过等级保留与原始样本联系起来。这对于个性化推断、异常检测和数据集成至关重要。为了将这种等级保护的概念推广到多变量情况,我们考虑一个传输映射到,它不一定是可逆的。然而,可逆性确保了之间的往返转换是唯一确定的。然后我们对齐的多变量等级与的等级,这使用其在基础变量空间中的表示保留了的等级。有关多变量等级的详细信息,请参阅补充材料的第III节。换句话说,当是可逆的时,这种对齐通过保留了的等级,并恢复了单变量情况。在实践中,我们可能使用重建,就像在正规化流的情况下一样,或者将非可逆的单独处理,就像在扩散模型中一样;请参见以下段落中的示例。
多样性和保护的扰动。最新的去噪扩散模型([26], [17], [27])研究表明,在前向扩散过程中添加高斯噪声,然后在反向过程中去噪以估计初始分布,可以有效地提高生成样本的多样性。此外,以某种形式的数据扰动添加噪声[14]可以使满足差分隐私标准[25]以保护隐私。
这一讨论引出了PASS的生成方案,该方案包括三个组成部分:传输估计、等级保护和数据扰动: (1) 从基础分布中采样; (2) 计算排列映射上,以对齐的多变量等级与,其中是从的传输映射。有关的更多细节,请参见补充材料的第III节。 (3) 通过添加噪声生成
其中是一个已知的扰动函数,它在保持基础分布的同时向注入噪声,即仍然是来自的随机样本,而是一个将推向的传输映射。图1提供了一个说明。

值得注意的是,方程(1)可以应用于原始数据的嵌入以进行降维,如[26]、[17]、[27]等研究中所示。在(1)中,分别代表生成和等级保护。为了简化,我们通过假设其必然性来估计。然而,在某些情况下,不强加的可逆性而是单独估计是有利的,如在扩散模型中。至于扰动,我们可以选择以保持通过的多变量等级,即使在添加噪声之后(见定理1)。例如,补充材料的第IV节介绍了的加性形式。关于噪声分布,我们通常将其参数化为,其中表示扰动大小,代表一个标准化的噪声分布。当隐私不是问题时,我们可以方便地设置并选择作为恒等映射。此外,当个性化和数据集成不是主要关注点时,如在第V节中,我们可以选择
与下游任务分离。理想情况下,我们可以在执行下游任务的同时,重新利用原始样本来估计传输。然而,这种方法在下游分析的有效性方面是有争议的[28]。虽然它为关键统计量提供了有效的推断,如定理2所示,但在后选择推断中可能会得出过于乐观的结论[28]。为了解决这个问题,我们建议使用一个独立的保留样本,通常可以从同一人群的其他研究中获得。例如,类似图像的训练样本可以作为保留数据,用于学习推断的数据生成分布,如第VI节所示。通过将下游分析与估计分开,我们保证了即使在有限样本大小的情况下推断的有效性;见定理2。如果保留数据不可用,一个可能的替代方案是样本分割,其中一个子样本作为保留样本。这种方法可以得出有效的结论,但可能会影响统计能力[29]。

B. 数据生成分布

给定一个保留样本,我们的目标是构建,或者等价地,以估计数据生成分布。在此基础上,PASS生成,遵循,如引理1中详细说明。随后,我们提议使用生成模型来重建,要么通过明确地用一个可逆的近似,如,如正规化流[22]、[30]、[31]中所述,或者通过扩散建模[17]、[18]中的抽样隐式进行。因此,大型预训练生成模型可以增强数据生成分布的估计精度。
显式估计。我们建议通过最大化似然函数来估计,该函数通过的分布参数化。具体来说,我们通过以下方式获得估计的传输
其中是预定义的函数类,如正规化流,是一个非负的惩罚函数,是一个正则化参数。在(2)中,其受限版本可以服务于相同的目的,如[32]所述。此外,由于的性质,我们可以显式地获得及其对应密度的解析形式,例如,在正规化流[22]、[30]、[31]中。
通过PASS估计统计量的分布。给定一个估计的,当是可逆的时,我们可以获取估计的数据生成分布。值得注意的是,PASS可以使用,由(1)导出,来生成合成样本。基于此,我们提出了一种蒙特卡洛方法来估计任何统计量的CDF,用于估计,其中每个是通过PASS从获得的。有关这种方法的统计保证和合理性,请参见第IV节。

C. Sampling Properties of PASS

引理1提出了由PASS生成的的抽样属性。 引理1.(PASS的抽样属性)给定由(1)使用生成的,假设独立于。那么,
  1. (样本内)当独立同分布时,是按照个独立同分布(iid)样本。
  2. (独立性)对于任何排列不变的,使得,其中表示在上的任何排列映射。
引理1强调了生成PASS样本的两个优势。首先,它的iid属性是独特的,不是任何重采样方法所共有的。其次,PASS统计量给定的条件分布与其无条件分布相同,这一属性不是现有重采样方法所共有的。这一点有些令人惊讶,因为测试统计量的排列不变性允许在不施加之间依赖性的情况下保留的等级。请注意,常见的测试统计量对于iid样本的样本顺序排列是不变的[33]。这两个方面确保了PASS样本准确地代表了,从而可靠地估计了的分布。

III. 扰动辅助推理

在推断中,数据科学家经常使用统计量进行假设检验或关于或其函数的置信区间。基于第II节中描述的PASS框架,我们估计的分布,这允许通过蒙特卡洛模拟进行有效推断。我们引入了一个名为扰动辅助推断(Perturbation-Assisted Inference, PAI)的生成推断框架。PAI涉及两个独立样本:一个是通过的推断样本,另一个是用于通过PASS估计生成分布的保留样本。然而,如果是关键的,那么保留和推断样本可以是相同的,如定理2所建议。
为了执行假设检验,我们按以下步骤进行: (1)估计的零分布。在零假设下,我们使用保留样本进行PASS的生成分布,以估计检验统计量的零分布,避免了样本重用。具体来说,我们通过(1)生成个独立的合成样本,其中是在的估计。然后,我们计算经验分布,对于任何实数,作为给定个独立副本的PASS估计,其中每个样本是通过PASS从获得的。 (2)推断。我们使用经验零分布来计算基于在推断样本上评估的训练有素的机器学习器的拒绝概率,以得出推断。此外,我们可以将测试转换为置信集。
与其他生成模型的联系。PASS与各种用于估计(1)中的传输的生成模型兼容,可以利用大型预训练模型来增强分布估计的准确性。与其他生成器不同,PASS保留了推断样本的等级,并通过添加噪声来多样化或保护原始数据。
与重采样的联系。重采样方法适用于低维数值数据[10],其中可以基于准确估计。然而,这些方法在处理高维数据时因维度的诅咒而挣扎。此外,重采样数据仅在条件上是独立的,即使是独立的。例如,在参数自举中,条件是,样本,假设已知的恒等协方差矩阵和从中估计的均值向量。然而,对于其无条件分布,。这种方法可能导致在后选择推断中过于乐观的结论,因为依赖于选定的模型[34]、[11]、[29]。
相比之下,PASS在保留样本独立于时产生独立样本,如引理1中讨论的,这使得有效推断成为可能。此外,PASS样本保留了推断样本的等级,便于个性化和数据集成。至关重要的是,PASS可以生成数值、非结构化和多模态数据,如图像-文本对,允许PAI超越传统推断框架,解决涉及非结构化和多模态数据推断的复杂问题。

IV. 统计保证和证明

给定由PASS从独立保留样本估计的,我们通过研究PASS对的估计误差,以Kolmogorov-Smirnov Distance为度量,提供PAI的有效性保证:。接下来,我们对非关键推断和关键推断的误差进行分析。

A. Holdout 的一般推理

定理 1.(PAI的有效性) 假设通过PASS在大小为的保留样本上估计的数据生成分布与推断样本是独立的。此外,是在上计算的排列不变统计量。那么,PASS通过MC大小重建的的误差满足:对于任何小的,以至少的概率,
其中是分布之间的总变差距离。因此,只要时,PAI在上提供了一个有效的测试。
备注 1。 注意要求保留样本大小应该大于推断样本大小,因为的速率比慢。
备注 2。 对于由维布朗运动定义的扩散模型,[35]中的定理5.1建立了之间的误差界限:在正则性条件下:
其中数据生成分布属于Besov球,半径为,并且由-范数()测量的模光滑度
备注 3。 对于正规化流,补充材料中的命题1提供了以流的估计和近似误差表示的的误差界限,这意味着当且近似误差趋于零时,,我们期望如此,因为流作为复杂分布的通用近似器[36]。
定理1表明,PASS估计的误差受两个因素支配:蒙特卡洛(MC)误差和数据生成分布的估计误差。MC误差随着MC大小的增加而趋于0,而后者取决于应用于保留样本的估计方法,通常随着而趋于0。此外,PASS可以利用大型预训练模型通过知识转移提高学习精度,我们可以将其视为的增加。

B. 没有 Holdout 的关键推理

本小节将前述结果推广到关键的,其中是变换,是基于的估计。在这种情况下,PAI不需要保留样本,参数化,且,其中可以是由于关键属性的任何的估计器,且(2)不再需要。此外,给定PASS样本来自使用PASS的,PAI关键的是,其中是基于的估计;
定理 2.(关键推断的PAI有效性) 如果的关键,则定理1的结论在时成立。因此,只要,PAI在上提供了一个有效的测试。
定理2确立了PASS估计可以完全恢复,没有任何数据生成分布的估计误差,假设是关键的,即使在估计时发生估计误差。这一结果改进了[14]中的先前发现,并证明了使用推断样本单独估计进行关键推断的合理性。

V. 应用

A. 图像合成

在图像合成领域,深度生成模型因其生成的合成图像质量而受到欢迎。最近,研究人员展示了级联扩散模型[37]能够生成高分辨率、高保真度的图像,超过了BigGan-deep[38]和VQ-VAE2[39]在Fréchet inception distance (FID)上的表现。然而,这样的比较缺乏不确定性量化。随后,我们填补了这一空白,为比较两个分布进行了正式的推断,并量化了不确定性。给定两个多元高斯分布,FID分数定义为,其中是L2范数,表示矩阵的迹。通常我们在Inception-V3模型[40]提取的特征图上计算FID,这是一个预训练的视觉模型,具有提取视觉信号的很大容量。在我们的情况下,将是原始和生成的特征图分布。这里,我们测试:
然后,我们构造如下的测试统计量:,即测试图像的经验分布和合成测试图像的经验分布之间的经验FID分数,使用训练有素的模型,在Inception-V3模型的特征图上进行评估。为了训练PAI推断的PASS生成器,我们创建了两组独立图像,分别表示为,用于保持和推断,其中代表第张图像。对于图像生成,我们进一步将推断样本分为训练集和测试集,用于训练和评估生成器,这是一种常见的做法。然后,我们分为三个步骤进行。首先,我们在保持样本上训练PASS生成器,以生成在下的零分布,即PASS和候选生成器之间没有差异。其次,我们训练候选生成器,并在测试集上评估其性能,使用测试统计量,其中是从基线和候选生成器估计的分布。第三,我们从PASS估计的零分布中生成个独立副本的合成图像。然后,我们计算相应的测试统计量,以获得在的实证零分布,其中上评估,上获得。最后,我们使用基于计算双尾值。有关此计算的详细步骤,请参考补充材料中的算法1。这个过程的示意图可以在图3中找到。

B. 情感单词推理

鉴于数据的非结构化特性和建模技术的复杂性,如基于变换器的模型,推断学习任务中重要单词的重要性可能是一个挑战。在这一部分,我们对情感分析中一组积极、消极和中性单词的特征相关性进行显著性测试,情感分析是对标记为积极或消极的文本评论进行的。
为我们感兴趣的单词。考虑零假设及其备择假设
其中表示在数据分布下的风险,是在所有单词和那些被遮蔽的单词上的决策函数的总体风险最小化器。需要注意的是,遮蔽中的高关注度单词至关重要,因为像BERT这样的最新嵌入模型[41]能够推断出其他嵌入模型(如Word2Vec[42])无法推断出的单词。有关更多详细信息,请参见第VI-B节。PAI构造了一个测试统计量,使用在独立推断样本上评估的经验风险
其中是相应的训练决策函数,是在独立推断样本上评估的经验风险,表示标准误差。有关测试统计量的可视化表示,请参见图4。

对于情感分析,我们进一步将推断样本分为训练集和测试集,用于训练和评估分类器,如第V-A节所述。然后,我们分为三个步骤进行。首先,我们在上训练归一化流,以生成在下的遮蔽嵌入和情感标签的联合零分布。其次,我们分别在训练集和其遮蔽版本上训练情感分类器,以获得测试统计量(6)。第三,我们从PASS估计的零分布中生成个数据集,以计算相应的测试统计量,以获得在测试集上的实证零分布,其中分别代表嵌入和相应的情感标签,上计算。最后,我们通过将其值与的实证分布进行比较,获得在测试集上评估的值,有关详细信息,请参见补充材料中的算法2和图5,以了解此过程的示意图。

C. 文本图像生成

稳定的扩散,一个潜在的扩散模型[26],可以在给定文本提示的情况下生成详细的图像。本小节执行条件推断,以量化文本到图像生成的统计确定性。给定两个文本提示,我们构建一个一致性测试,对比它们生成的图像的相应条件分布。对于不确定性量化,我们使用Inception-V3嵌入[43]来表示图像。在高斯假设[44]下,我们定义两个嵌入的分布之间的FID得分作为假设检验的一致性度量:
此外,我们构造测试统计量,其中是推理样本上的图像嵌入的相应经验分布;
对于PAI推断,我们使用预训练的Stable Diffusion模型[26],这是一个最先进的文本到图像生成模型,作为我们的PASS生成器。然后,我们应用PASS来模拟测试统计量T的零分布。给定提示,对于,PASS从生成合成样本,得到合成嵌入,其中用于计算FID分数,然后得到大小为的测试统计量样本,在零假设下。在零假设下,的分布与的分布没有差异,因此将是FID分数在下的一个好估计,使用来自PASS的合成样本。此外,在计算FID分数时还考虑了之间的对称性。通过随机混合它们,我们得到了T的估计零分布;有关详细信息,请参见补充材料中的算法3和图6。

VI. 数值结果

A. 图像合成

本小节将第V节中的PAI应用于CIFAR10基准测试[45]上的图像合成质量的假设检验(4)。该数据集包含60,000张(3×32×32)大小的图像,涵盖10个不同的类别,其中50,000张用于训练,10,000张用于测试。
为了合成图像,我们使用CIFAR-10训练集,同时我们使用CIFAR-10测试集的一个随机子集,大小为,用于推断。此外,我们将CIFAR-10训练集平均分成两个样本,一个大小为的保留样本和一个大小为的样本,分别用于训练PASS生成器(参考)和训练竞争生成器。在(1)中,我们使用扩散模型(DDPM,[18])作为我们的基线生成器,记为PASS-DDPM。我们比较了三个候选生成器与基线生成器PASS-DDPM的FID得分,包括DDPM、深度卷积GAN(DCGAN,[23])和生成流(GLOW,[22]);参见图7,这些生成器生成的图像样本。为了计算FID得分,我们使用从预训练的Inception-V3模型[43]的中间层提取的2048维特征图对生成的图像进行评估。

对于(5)中的假设检验,我们使用PASS-DDPM,其中来估计FID得分的零分布,然后计算推断样本的相应P值,如表I所示。图8展示了基于的PASS-DDPM的FID得分的经验零分布随着推断样本大小的变化而变化,并且随着的增加而变得更加集中。这一观察强调了执行FID得分的不确定性量化的重要性,因为仅依赖于数值得分可能会导致错误的结论。此外,我们发现与PASS-DDPM相似的DDPM生成器的P值为.78,表明与基线PASS-DDPM没有显著差异。然而,DCGAN和GLOW与PASS-DDPM有显著差异,P值在的显著性水平下为.00。我们通过将推断样本大小从增加到来确认这一结论。

实验结果表明,DDPM生成器与基线PASS-DDPM相当,但DCGAN和GLOW显示出显著差异。它强调了考虑FID得分中的不确定性以避免对生成性能得出错误结论的必要性。

B. 情感单词推理

本小节将PAI应用于IMDB基准测试[46]上的情感分类中积极、消极和中性单词集合的相关性显著性测试。该数据集包括50,000条标记为积极或消极的电影评论。目标是确定每个单词集合是否对情感分析有显著贡献。
为了执行情感分析,我们使用预训练的DistilBERT模型[19]生成文本嵌入。然后,我们使用正常流动和大小为的保留样本来估计检验统计量的零分布,随后进行第V-B节中的检验(4)和大小为的推断样本,其中包含在大小为10,000的独立训练集上训练的情感分类器。
情感词汇的提取。我们根据[47]提供的意见词典提取IMDB评论中的积极和消极情感词汇,其余词汇被视为中性词汇。然后,我们提取每个集合中出现频率最高的|WM| = 600个积极、消极和中性词汇进行推断。表II显示了这些词汇的子集。
情感词汇的上下文掩蔽。一个主要挑战是,像BERT这样的基于变换器的模型[41]有能力通过未标记的词汇通过句子的上下文信息,因为它们在训练中使用了掩蔽语言建模。因此,简单地掩蔽单粒情感词汇并不影响情感分析。为了解决这个问题,我们提出通过阈值化来自预训练变换器编码器的注意力权重来掩蔽每个目标词的上下文,以便2%的上下文词汇被掩蔽。
迁移学习训练。为了执行情感分析,我们通过在预训练的未案例基础DistilBERT模型[19]上附加分类头部来构建分类器,这是BERT的一个轻量级版本,允许有效理解上下文。然后我们使用IMDB评论数据微调该模型,并为后续任务获得微调的嵌入。结果,该模型仅通过几轮微调就实现了高测试精度。
通过正规化流动学习嵌入分布。为了在嵌入空间中训练PASS,我们在独立保留样本上训练RealNVP[31],它具有仿射耦合层,以学习文本嵌入和情感标签的联合分布。具体来说,我们首先学习情感标签的边际分布,然后使用正规化流动来学习给定情感标签的文本嵌入的条件分布。学习到的流动将用于模拟检验统计量的零分布。有关更多训练细节,请参阅补充材料的第II-B节。正如图9所示,PASS产生了准确的单词-标签对的联合零分布,从相应的标签给定的边际和条件分布中可以看出。

PAI。我们应用PASS从正规化流动学习到的零分布中生成个合成样本。然后,我们使用大小为的训练样本来训练分类模型,同时在大小为的推断样本上计算检验统计量,所有合成样本的分割比例相同。
表II和图10表明,积极和消极词汇具有显著的P值分别为.045和.015,而中性词汇不显著,P值为.715,显著性水平为。换句话说,积极和消极情感词汇,特别是它们的上下文,是情感分析的重要预测特征。

为了理解PASS在模拟检验统计量零分布方面的贡献,我们注意到,积极、中性或消极词汇的联合零分布并不遵循标准高斯分布,MC大小为,如表III所示。它们的分布与它们的渐近分布[13]有显著差异,尽管它们的平滑曲线类似于高斯分布,如图10所示。因此,在这种情况下,[13]中的渐近检验是不适当的。这一结果证明了当检验统计量的分布显著偏离其渐近分布时,PASS的有用性。

C. 文本图像生成

考虑以下四个提示:提示1 - “太阳在山后落下”,提示2 - “太阳在山后落下”,提示3 - “山背后有日落”,提示4 - “山背后有满天繁星的夜晚”。这四个提示具有不同程度的相似性:提示1和2是相同的,提示1(或2)与提示3相似,提示4与上述三个都不同,在表IV中余弦相似度为1、.891、.590和.607。从视觉上看,提示1(或2)和3生成的图像非常相似,只有细微的差别,而提示4生成的图像显示星星,看起来截然不同,如图11所示。接下来,我们将通过我们的一致性检验(7)来确认这些视觉印象。

为了将PAI应用于(7)中的测试,我们使用预训练的稳定扩散模型构建两个图像集,分别对应两个提示。这个预训练模型是一个训练有素的最新文本到图像模型(相当于)。然后,我们计算两组图像之间192维Inception-V3嵌入的FID得分。为了模拟零分布,我们在MC大小为的检验统计量上应用PAI,对于两组图像,其中有效样本大小为400。
在提示1和2下生成的图像,在相应的P值为0.99和0.124在的显著性水平下在表IV中统计上无法区分。相比之下,提示1和4,以及提示3和4在图像生成上有显著差异,因为它们有不同的含义。此外,我们构建了更多的提示对,以获得余弦相似度与FID得分的谱,以及相应的测试结果。如图12所示,小的FID得分和大的余弦相似度意味着两个提示在概念上是等价的或相似的,这可以被不同显著性水平下的测试捕获。

D. 预测数的变化范围

我们进行了一项模拟研究,以评估使用PASS生成器的PAI创建的预测区间的准确性和精确性,并将其与通过一致性方法[11]获得的预测区间进行比较。我们使用一个真实情况可访问的模拟模型进行评估:
其中遵循[0, 1]^7上的均匀分布(Uniform(0, 1)7),而是均值为0,标准差为的正态分布。我们从(8)中生成3,200个样本,将它们分成3,000个用于训练和200个用于测试。
为了生成的条件生成模型,我们采用了([48], [49])中建议的方法。最初,我们在训练数据上训练一个TabDDPM([50])作为我们的PASS生成器,以模拟的联合分布。然后,我们调整扩散模型的逆过程,进行无条件生成,而无需重新训练。一个覆盖水平为的预测区间可以定义为,其中分别是使用PAI的蒙特卡洛方法估计的条件分布的下和上分位数。
在我们的实验中,我们设置,并将PAI预测区间与一致性推断得出的预测区间进行比较。具体来说,对于后者,我们将训练数据集进一步分成一个2,400个样本的建模样本和一个600个样本的校准样本。前者用于训练一个CatBoost预测模型[51],而后者用于构建一致性分数以进行不确定性量化。我们在测试样本上评估两种方法的预测区间。
这里,我们强调扰动的大小不会影响PASS算法学习到的分布的有效性或准确性,因为使用了保持分布不变的扰动函数,参见(1)。这一主张得到了图13中的结果的支持,表明PASS算法学到的分布在不同扰动大小下保持一致,与真实底层分布非常接近。额外的验证来自表V中的数据,它显示了不同扰动大小下的1-Wasserstein距离和Fréchet Inception Distance (FID)的分布距离变化很小,所有这些都表明了可比的生成误差率。总之,扰动大小对PAI没有影响,PAI采用了蒙特卡洛模拟方法。

大约68%的PAI区间比通过一致性推断获得的区间短,如图14所示,其中PAI区间与一致性推断和测试点上的实际值进行了对比。PAI区间还显示出与真实值更好的对齐,突出了PAI作为一种非参数推断方法的有效性。

此外,PAI预测区间保持准确的覆盖概率。如图15所示,尽管一致性推断区间倾向于更宽且更保守,但PAI区间实现了几乎精确的覆盖:它们的中位数覆盖概率为0.95,与指定水平一致。然而,由于底层模型的小方差和一些偏差,PAI的平均覆盖概率略低,为0.9,这稍微偏离了预测区间的中心,尽管估计的长度接近实际值。

VII. 结论

本文介绍了PAI,这是一种新颖的基于生成方案PASS的推断框架,它促进了从复杂和非结构化数据类型(如图像和文本)中进行统计推断。PAI解决了像深度神经网络这样的黑盒模型中缺乏有效的不确定性量化方法的问题。
基于PASS构建的PAI框架专门估计统计量的分布,通过蒙特卡洛实验提供了一种强大的统计推断方法。PAI的一个关键优势是其理论保证了即使在数据稀缺的情况下推断的有效性。本文展示了其广泛的适用性。
尽管如此,PAI也有其局限性。其主要挑战是蒙特卡洛实验期间的计算需求。此外,PAI的性能和准确性在很大程度上取决于PASS的有效性。另一方面,PASS利用生成模型,如扩散模型和正规化流,来镜像原始数据分布。它还可以利用大型预训练生成模型来提高估计精度。PASS的生成器通过在潜在变量上的多变量等级匹配支持数据集成和个性化,通过数据扰动维护隐私。
在理论上,我们探索了PASS的抽样属性,确认了数据扰动后潜在变量等级的近似。实验结果突出了PASS的生成质量优势。我们的主要目标是为研究人员提供能够从数据中得出可靠和可复制结论的工具。这些工具有潜力提高数据驱动发现和统计推断的可信度和可靠性。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编



PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章