高湛,北京大学光华管理学院2023级在读博士生。
今天为大家分享的是由Siyi Deng,Yang Ning,Jiwei Zhao和Heping Zhang于2024年发表在JASA的文章《Optimal and Secure Estimation in High-dimensional Semi-supervised Learning》,文章考虑了高维情形下的半监督估计问题,探讨了无标注样本在什么情况下、以何种程度改善估计量的统计学效率,而且在此基础上考虑了多种不同的半监督估计量并给出了相应的误差界。
引言
半监督学习是统计与机器学习的新兴方向,并且在基于电子信息档案(EHR)的临床研究中有巨大潜力。此类研究中的一个主要挑战是缺乏金标准的健康结果或表型(Kohane 2011)。实际操作中,通常通过手动查阅病历获得经过验证的表型,但这过程非常昂贵(Liao et al. 2010)。因此,实际只有一小部分患者可以由专家进行标注。对于其余的患者,通常只可以获取到高维的协变量(Weisenthal et al. 2018; Gensheimer et al. 2019; Abdullah et al. 2020)。
因此开发有效的统计方法来分析这类部分标记的数据是一个重要的问题。下面先介绍半监督学习的问题框架。记是响应变量,是维协变量。除了个标记数据,还观测到个仅包含协变量的数据。前者被称为标记数据,后者被称为未标记数据。记和是标记数据的响应和协变量,是所有协变量。本文关注高维回归问题,即可以远大于。此外,未标记数据的大小可以大于,但不是必须的。本文考虑所谓的假设精简(assumption lean)回归框架(Buja et al. 2019; Berk et al. 2019),
刻画了和之间的线性依赖关系。文章不在中包含截距,仅因为 和 ,因此文章的目标是估计高维参数。
核心理论
首先,文章的第一个贡献是建立针对 的半监督估计minimax下界。特别地,为了推导这个下界,假设 是未知的,但属于某个特定的模型类,使得可以在现有文献中找到估计 的方法。基于这个下界,当 足够大时,由模型错误识别造成的误差变得可以忽略。这说明在模型错误识别的情况下,使用未标记数据估计的半监督估计量可能更加稳健。此外,文章证明只使用标注数据的估计量(例如,lasso和Dantzig选择器)不能达到这个下界。文章第二个贡献是提出一种新的半监督估计量,它在一些条件下达到这个下界。在定理二中,文章证明半监督估计量的速率取决于未知的 是否可以被一致地估计。当 属于某个特定的模型类,使得其能够以适当的速率被一致地估计时,所提出的估计量达到minimax最优下界(忽略某些对数因子),因此改进了只使用标注数据的估计量的收敛速率。然而,当被错误识别时,半监督估计量的速率不再最优,甚至可能比只使用标注数据的估计量更慢。文章第三个贡献是开发一种两步拟合程序,进一步改进上述半监督估计量的统计性质。由此产生的估计量无论 是否被错误识别,都不会比只使用标注数据的估计量差,除此之外,当 属于某些特定模型类并能够以适当的速率被一致估计时,得到的半监督估计量在minimax意义下仍然最优。所以,提出的估计量被称为安全的半监督估计量,因为可以安全地使用未标记数据。文章最后进一步拓展安全半监督估计量的思想,提出聚合不同的半监督估计量使得最终的估计量不差于任何未聚合的半监督估计量。
记号约定
在后文中,记 和 分别代表 的联合分布和 的边际分布。对于 , 定义 ,其中 并且 代表集合 的基数;对于 定义 ;。记 。对于矩阵 , 和 分别代表第 行和第 列。定义 ,,。如果矩阵 是对称的,那么 和 分别代表 的最小和最大特征值。记 为 的单位矩阵。对于 ,令 并且 为 的补集。对于矩阵 和索引集 ,。对于函数 ,记 代表 的 范数。对于两个正数列 和 ,记 ,如果存在常数 使得 。类似地,使用 表示存在常数 使得 。对于 , 和 分别代表 和 的最大和最小值。
半监督学习的minimax下界
首先介绍半监督估计的minimax下界。在定理一中文章严格证明,未知的条件期望函数在评估半监督估计量的性质时会起到关键作用,然而高维情形下 的估计是一个十分不平凡的问题。在大部分文献中,只有当 属于某些特定的模型类时,才能够相合地估计 。因此,在推导minimax下界时,假设 属于下面要介绍的两个模型之一。
第一个模型为二阶交互效应模型。首先定义,是未知参数,满足。其中, 代表 的0阶范数。通过引入二阶项为模型引入了非线性的部分,同时 限制了非零参数的个数从而控制了模型的复杂度(Zhao and Leng 2016)。由此定义出 的联合分布为,其中 会依赖于的分布。 控制了 的稀疏性, 为协变量的分布族。从 的定义可以看出,该模型受到两个关键的非负参数 和 的约束。实际上, 刻画了模型错误识别的程度,即 的非线性的程度,而 控制了噪声的强度。后续讨论中,允许随着监督样本量 增大而增大。第二个模型为线性可加模型。首先定义 ,是未知的二阶光滑函数(Lin and Zhang 2006; Meier, Van de Geer, and Bühlmann 2009; Huang, Horowitz, and Wei 2010; Raskutti, Wainwright, and Yu 2012)。为了简化表述,不在这里介绍 -smooth 函数的定义。类似于 ,假设非零函数的个数被 限制。与 相比,可加模型不允许协变量之间的交互作用,但是在将每个分量与的关联性方面更加灵活。类似于,也可以定义。在当前定理与后续所有定理中的 和 都可以相互替换。为了得到半监督估计的minimax下界,做出如下假设,
假设一:
由此得到如下定理,
定理一:
若假设一成立,对于任意,有
首先观察到定理一限制模型类 为 或 ,如果考虑更一般的模型类 ,那么定理一的得到的下界将仍然成立。观察得到的下界,发现该下界由两部分组成。第一部分 是由于可能的模型错误识别导致的误差,第二部分 则来自于随机误差 。若真实的回归函数是线性的,即 ,有,定理一得到的下界与使用标注样本稀疏线性回归的现有结果一致(Verzelen 2012; Bellec, Lecué, and Tsybakov 2018)。
在介绍半监督估计量之前,简单总结有监督估计量的性质。首先考虑有监督的Dantzig估计量 ,其定义如下
在 的条件下,当且仅当 时,定理一中下界的阶数比上式得到的上界严格小。因此,在这种情况下,有监督估计量 不能达到minimax意义上的最优下界。类似地,有监督的lasso估计量定义如下
最优的半监督估计
首先根据 Bickel, Ritov, and Tsybakov (2009),可以证明 ,其中 。因此, 较慢的收敛速率主要由得分函数的无穷范数 造成。要改进有监督估计量的速率,关键的想法就是构造新的得分函数。为此,将 的得分函数分解为如下两个部分
文章就此提出将上式最后一项替换成 ,即全体标注数据与未标注数据的平均。显然,这是一个针对 的相合估计并且以更快的速率收敛。因此,无标注数据可以帮助估计模型错误识别误差梯度的期望并解释了为什么无标注数据在模型错误识别的情况下可能有所帮助。这导致了如下修改的得分函数
计算
为了计算 ,需要 的估计量。在后文中,使用 来表示条件均值函数的估计量。为了考虑未知条件均值函数的可能模型错误识别,假设存在一个函数 ,,并且 的估计量 在 范数意义下收敛到 。将 称为条件均值模型。当条件均值模型正确识别时,则 并且 是 的一致估计量。此外,使用标注数据拟合 会导致 与数据 之间产生相依关系。因此文章采用了交叉拟合技术。为了简化记号,将有标记数据 分为两部分 和 ,大小为 。类似地,将无标记数据分为两部分 和 ,大小为 。将 和 与 和 合并,得到两个独立的数据集 和 。接下来,对于 ,使用数据 得到估计量 ,然后构造
因此,记 并将 替换为 ,由此得到如下半监督的Dantzig选择器
同理,可以定义如下半监督的lasso估计量
最优的半监督估计的理论性质
为了得到半监督估计量的理论性质,文章做出如下假设。
假设二:
假设(A1)是标准的特征值限制条件。假设(A2)限制协变量有界从而简化线性模型错误识别的分析。特别地,当 是一致有界时, 变为一个常数。如果 的每个分量是高斯或次高斯的,假设(A2)仍然以高概率成立,其中, 是一个常数。假设(A3)只需要存在 和 的二阶矩。假设(A4)是稀疏性条件。可以证明, 和 有着相同的误差界,因此为了简化说明,文章只展示当 时 的渐进性质,其中 可以固定也可以随着
定理三:
若假设二成立且估计量 满足 ,其中 为确定性的实数序列。令 且调节参数满足。则半监督估计量 满足如下的误差界
定理二得到的误差界依赖于 (估计量 的随机误差),以及 (可以看作是估计量的渐进偏差)。如果 属于 或 ,现有文献中已经证明存在估计量 使得 且 ,此时定理二的误差界与定理一中的minimax下界匹配。因此,称在这种情况下的估计量为最优的半监督估计量。另一方面,如果偏差项 较大,定理二的误差界意味着估计量 可能具有较慢的速率。实际中,设置调节参数 并通过交叉验证选择常数 。
安全的半监督估计
定理二表明,如果条件均值 可以以一定的速率被一致的估计,例如,当 属于 或 时,半监督估计量在minimax的意义上是最优的。然而,如果这个条件不成立,半监督估计量可能不再是最优的。尤其在 时, 比只使用有标注样本的估计量收敛速率更慢。为了解决这个问题,文章进一步提出了一种安全的半监督估计量,通过两步拟合程序来适应未知的条件均值,确保半监督估计量不差于有标注样本得到的估计量。为了说明该估计的理论性质,考虑lasso估计量的两步估计。重新整理lasso半监督估计对应的目标函数,可以得到如下等式
首先,针对任意给定的未知条件均值估计 ,计算出半监督lasso估计量 和只使用有标注样本的lasso估计量 。由于估计量 在条件均值错误识别时并不理想,因此在第二步中,在 的支撑集的一个合理估计上重新拟合 。记两个lasso估计量的支撑集为 和 。由此定义安全的半监督估计量为
其中 通过如下方式得到,
由于上式要求 ,这意味着 对于任意 。因此,安全半监督估计量 只在估计的支撑集 上与 不同。由于 和 的估计目标都是 ,可以将 视为 的估计量。首先,如果初始估计量 有较快的收敛速率,由于 正则化项的存在, 。因此 将继承 的快速收敛速率。在第二种情况下,如果 由于模型错误识别而收敛速率较慢,通过合适的调节参数,可以得到 。
定理三:若假设二成立,且 与 。假设调节参数 , 和 满足 和 。则对于 ,有
定理三表明,安全的半监督估计量 的收敛速率不会比有监督估计量 差。因此,倘若初始估计量 在minimax意义上最优,则 也为最优并且不差于只使用有标注样本的估计量,即使条件均值被错误识别。
聚合半监督估计量
由于半监督估计量的性能依赖于条件均值的估计 。而实际中很难找到条件均值的相合估计量。并且针对 通常有多种选择,而其中不包含相合的估计。因此文章为了解决这个问题,拓展了安全半监督估计量的两步估计过程,通过聚合不同的半监督估计量以达到更好的估计效果。假定有两个不同的条件均值估计量 和 。因此在第一步,得到对应的半监督lasso估计量为 和 ,调节参数分别为 和 。记两个估计量的支撑集分别为 和 。在第二步,以 为初始估计量,定义聚合估计量为
不同于安全半监督估计量的第二步估计,这里使用了无标注数据来计算 以此实现相较于 和 更快的收敛速率,虽然 的构造对于 和 并不对称,但是后续理论分析表明, 和 的相对顺序并不重要。
性质一:
若假设二成立,且 与 。估计量 和 满足 与 ,其中 。记 与 。调节参数满足 与 。则对于 ,有
性质一表明,聚合半监督估计量 有着 和 之中最优的收敛速率。同样的,如果还存在第三个半监督估计量,则可以以 为初始估计量并重复拟合的过程,得到最终估计量有着三个估计量中最好的收敛速率。总体上讲,只要半监督估计量的数量有限,总可以通过聚合他们来提高最终估计的性能。
数值模拟
文章首先生成 维的多元正态随机向量 ,其中 。将协变量 定义为 且 对于 。针对条件均值,文章考虑三种模型,分别为
模型一:
模型二:
模型三:
由于模型一是带二次项的可加模型,因此SSL1和SSL2都可以很好地估计条件均值函数,因此他们的估计误差远小于Dantzig选择器。此外,可以看到SSL1优于SSL2,因为SSL1中的可加模型可以更好地估计条件均值函数。通过聚合SSL1和SSL2,估计量SSL12在所有方法中实现了最小的 误差。对于两个安全半监督估计量S-SSL1和S-SSL12,他们保留了相应半监督估计量SSL1和SSL12的 范数中的最优速率,并且明显优于Dantzig选择器,这与理论性质一致。模型二与模型三对应的模拟结果分别在图2与图3中给出。由于模型二是带交互项的可加模型,因此稀疏可加模型并不相合,因此SSL1的估计误差相较于只使用标注样本的Dantzig选择器并改善。然而,安全半监督估计量S-SSL1成功缓解了SSL1较差的表现并且在 和 范数的意义上均优于标注样本的Dantzig选择器。同时,由于交互效应模型正确识别了模型二,因此SSL2,SSL12与S-SSL12均有较小的估计误差。针对模型三,由于真实的条件期望与模型一差距较大,造成了SSL1的估计误差较大。同时,由于交互效应模型并不能正确识别模型三中的三阶项,因此SSL2的估计误差也较大。但其仍可以解释部分模型三中的非线性关系,因此SSL2的表现在 和 范数意义下仍优于Dantzig选择器。
实际数据分析
文章的实际数据来自于麻省理工学院计算生物实验室整理的MIMIC-III数据库(Johnson et al. 2016)。该数据库包含了38597位在2001年至2012年间在Beth Israel Deaconess医护中心接受过重症监护的十六岁以上患者的匿名医疗数据。文章通过半监督估计量来研究血液样本中的白蛋白水平与其他变量之间的关系。经过处理后的数据包含4787个样本,每个样本有 个协变量。重复100次实验,每次随机选取2000个样本,并将其中的前500个样本记为标注样本,剩下的1500个样本作为未标注样本并隐去样本的白蛋白水平。在每次实验中,从500开始逐渐增加未标注样本的数量。由于工作模型已经包含了一些交互项,因此文章使用随机森林来估计相应估计量的条件均值函数,实验结果总结在图4。其中真实的回归系数通过4787个全样本的lasso估计量得到。
从图4可以看出,随着 从1增加到3,相比于有监督的lasso,提出的S-SSL估计量可以将 误差降低约7.6%到10.3%,而提出的SSL估计量可以将 误差降低约10.1%到21.7%。对于 误差,S-SSL估计量的降低幅度约为14.9%到22.4%,而SSL估计量的降低幅度约为23.2%到28.6%。SSL估计量的表现优于S-SSL估计量,尽管两者差距不如与有监督lasso的比较显著,这可能是由于随机森林已经有效地拟合了条件均值函数。因此,S-SSL估计量的表现与SSL估计量类似。
参考文献
Abdullah, Sheikh S., Neda Rostamzadeh, Kamran Sedig, Amit X. Garg, and Eric McArthur. "Visual analytics for dimension reduction and cluster analysis of high dimensional electronic health records." In Informatics, vol. 7, no. 2, p. 17. MDPI, 2020.
Bellec, Pierre C., Guillaume Lecué, and Alexandre B. Tsybakov. "Slope meets lasso: improved oracle bounds and optimality." The Annals of Statistics 46, no. 6B (2018): 3603-3642.
Berk, Richard, Andreas Buja, Lawrence Brown, Edward George, Arun Kumar Kuchibhotla, Weijie Su, and Linda Zhao. "Assumption lean regression." The American Statistician (2021).
Bickel, Peter J., Ya’acov Ritov, and Alexandre B. Tsybakov. "Simultaneous analysis of Lasso and Dantzig selector." (2009): 1705-1732.
Buja, Andreas, Lawrence Brown, Richard Berk, Edward George, Emil Pitkin, Mikhail Traskin, Kai Zhang, and Linda Zhao. "Models as approximations I." Statistical Science 34, no. 4 (2019): 523-544.
Huang, Jian, Joel L. Horowitz, and Fengrong Wei. "Variable selection in nonparametric additive models." Annals of statistics 38, no. 4 (2010): 2282.
Johnson, Alistair EW, Tom J. Pollard, Lu Shen, Li-wei H. Lehman, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G. Mark. "MIMIC-III, a freely accessible critical care database." Scientific data 3, no. 1 (2016): 1-9.
Kohane, Isaac S. "Using electronic health records to drive discovery in disease genomics." Nature Reviews Genetics 12, no. 6 (2011): 417-428.
Liao, Katherine P., Tianxi Cai, Vivian Gainer, Sergey Goryachev, Qing Zeng‐treitler, Soumya Raychaudhuri, Peter Szolovits et al. "Electronic medical records for discovery research in rheumatoid arthritis." Arthritis care & research 62, no. 8 (2010): 1120-1127.
Lin, Yi, and Hao Helen Zhang. "Component selection and smoothing in multivariate nonparametric regression." (2006): 2272-2297.
Meier, Lukas, Sara Van de Geer, and Peter Bühlmann. "High-dimensional additive modeling." (2009): 3779-3821.
Raskutti, Garvesh, Martin J Wainwright, and Bin Yu. "Minimax-optimal rates for sparse additive models over kernel classes via convex programming." Journal of machine learning research 13, no. 2 (2012).
Verzelen, Nicolas. "Minimax risks for sparse regressions: Ultra-high dimensional phenomenons." (2012): 38-90.
Weisenthal, Samuel J., Caroline Quill, Samir Farooq, Henry Kautz, and Martin S. Zand. "Predicting acute kidney injury at hospital re-entry using high-dimensional electronic health record data." PloS one 13, no. 11 (2018): e0204920.
Zhao, Junlong, and Chenlei Leng. "An analysis of penalized interaction models." (2016): 1937-1961.