高维半监督学习的最优和安全估计

学术 2024-10-28 07:02 广东

作者介绍

高湛，北京大学光华管理学院2023级在读博士生。

今天为大家分享的是由Siyi Deng，Yang Ning，Jiwei Zhao和Heping Zhang于2024年发表在JASA的文章《Optimal and Secure Estimation in High-dimensional Semi-supervised Learning》，文章考虑了高维情形下的半监督估计问题，探讨了无标注样本在什么情况下、以何种程度改善估计量的统计学效率，而且在此基础上考虑了多种不同的半监督估计量并给出了相应的误差界。

引言

半监督学习是统计与机器学习的新兴方向，并且在基于电子信息档案（EHR）的临床研究中有巨大潜力。此类研究中的一个主要挑战是缺乏金标准的健康结果或表型（Kohane 2011）。实际操作中，通常通过手动查阅病历获得经过验证的表型，但这过程非常昂贵（Liao et al. 2010）。因此，实际只有一小部分患者可以由专家进行标注。对于其余的患者，通常只可以获取到高维的协变量（Weisenthal et al. 2018; Gensheimer et al. 2019; Abdullah et al. 2020）。

因此开发有效的统计方法来分析这类部分标记的数据是一个重要的问题。下面先介绍半监督学习的问题框架。记是响应变量，是维协变量。除了个标记数据，还观测到个仅包含协变量的数据。前者被称为标记数据，后者被称为未标记数据。记和是标记数据的响应和协变量，是所有协变量。本文关注高维回归问题，即可以远大于。此外，未标记数据的大小可以大于，但不是必须的。本文考虑所谓的假设精简（assumption lean）回归框架（Buja et al. 2019; Berk et al. 2019），

其中是未知的条件均值函数，是与独立的随机误差，满足，是未知参数。文章考虑随机设计，并假设和都是中心化的，即和。一方面，文章希望在上尽可能少地做出假设，以实现模型的灵活性。另一方面，为了便于解释，通常拟合简单的参数模型，如线性回归，以解释和之间的关联。为了同时满足这两个目标，文章将线性回归作为工作模型，真实的数据生成过程遵循。由于，线性模型中的回归系数对应着在由张成的线性空间上的投影，即

刻画了和之间的线性依赖关系。文章不在中包含截距，仅因为和，因此文章的目标是估计高维参数。

核心理论

首先，文章的第一个贡献是建立针对的半监督估计minimax下界。特别地，为了推导这个下界，假设是未知的，但属于某个特定的模型类，使得可以在现有文献中找到估计的方法。基于这个下界，当足够大时，由模型错误识别造成的误差变得可以忽略。这说明在模型错误识别的情况下，使用未标记数据估计的半监督估计量可能更加稳健。此外，文章证明只使用标注数据的估计量（例如，lasso和Dantzig选择器）不能达到这个下界。文章第二个贡献是提出一种新的半监督估计量，它在一些条件下达到这个下界。在定理二中，文章证明半监督估计量的速率取决于未知的是否可以被一致地估计。当属于某个特定的模型类，使得其能够以适当的速率被一致地估计时，所提出的估计量达到minimax最优下界（忽略某些对数因子），因此改进了只使用标注数据的估计量的收敛速率。然而，当被错误识别时，半监督估计量的速率不再最优，甚至可能比只使用标注数据的估计量更慢。文章第三个贡献是开发一种两步拟合程序，进一步改进上述半监督估计量的统计性质。由此产生的估计量无论是否被错误识别，都不会比只使用标注数据的估计量差，除此之外，当属于某些特定模型类并能够以适当的速率被一致估计时，得到的半监督估计量在minimax意义下仍然最优。所以，提出的估计量被称为安全的半监督估计量，因为可以安全地使用未标记数据。文章最后进一步拓展安全半监督估计量的思想，提出聚合不同的半监督估计量使得最终的估计量不差于任何未聚合的半监督估计量。

记号约定

在后文中，记和分别代表的联合分布和的边际分布。对于 , 定义，其中并且代表集合的基数；对于定义；。记。对于矩阵，和分别代表第行和第列。定义，，。如果矩阵是对称的，那么和分别代表的最小和最大特征值。记为的单位矩阵。对于，令并且为的补集。对于矩阵和索引集，。对于函数，记代表的范数。对于两个正数列和，记，如果存在常数使得。类似地，使用表示存在常数使得。对于，和分别代表和的最大和最小值。

半监督学习的minimax下界

首先介绍半监督估计的minimax下界。在定理一中文章严格证明，未知的条件期望函数在评估半监督估计量的性质时会起到关键作用，然而高维情形下的估计是一个十分不平凡的问题。在大部分文献中，只有当属于某些特定的模型类时，才能够相合地估计。因此，在推导minimax下界时，假设属于下面要介绍的两个模型之一。

第一个模型为二阶交互效应模型。首先定义，是未知参数，满足。其中，代表的0阶范数。通过引入二阶项为模型引入了非线性的部分，同时限制了非零参数的个数从而控制了模型的复杂度（Zhao and Leng 2016）。由此定义出的联合分布为，其中会依赖于的分布。控制了的稀疏性, 为协变量的分布族。从的定义可以看出，该模型受到两个关键的非负参数和的约束。实际上，刻画了模型错误识别的程度，即的非线性的程度，而控制了噪声的强度。后续讨论中，允许随着监督样本量增大而增大。第二个模型为线性可加模型。首先定义，是未知的二阶光滑函数（Lin and Zhang 2006; Meier, Van de Geer, and Bühlmann 2009; Huang, Horowitz, and Wei 2010; Raskutti, Wainwright, and Yu 2012）。为了简化表述，不在这里介绍 -smooth 函数的定义。类似于，假设非零函数的个数被限制。与相比，可加模型不允许协变量之间的交互作用，但是在将每个分量与的关联性方面更加灵活。类似于，也可以定义。在当前定理与后续所有定理中的和都可以相互替换。为了得到半监督估计的minimax下界，做出如下假设，

假设一：

由此得到如下定理，

定理一：

若假设一成立，对于任意，有

其中表示对所有基于标记数据和未标记数据的估计量取下界，和是某些正常数。

首先观察到定理一限制模型类为或，如果考虑更一般的模型类，那么定理一的得到的下界将仍然成立。观察得到的下界，发现该下界由两部分组成。第一部分是由于可能的模型错误识别导致的误差，第二部分则来自于随机误差。若真实的回归函数是线性的，即，有，定理一得到的下界与使用标注样本稀疏线性回归的现有结果一致（Verzelen 2012; Bellec, Lecué, and Tsybakov 2018）。

在介绍半监督估计量之前，简单总结有监督估计量的性质。首先考虑有监督的Dantzig估计量，其定义如下

其中为调节参数。可以证明，在充分大的概率下，如下等式成立

在的条件下，当且仅当时，定理一中下界的阶数比上式得到的上界严格小。因此，在这种情况下，有监督估计量不能达到minimax意义上的最优下界。类似地，有监督的lasso估计量定义如下

其中为调节参数。对于有监督的lasso估计量，可以类似地推导出与Dantzig选择器对应上界相同的结果，即Dantzig选择器和lasso估计量在理论上是等价的（Bickel, Ritov, and Tsybakov 2009）。后续将介绍半监督的Dantzig选择器的形式。

最优的半监督估计

首先根据 Bickel, Ritov, and Tsybakov （2009），可以证明，其中。因此，较慢的收敛速率主要由得分函数的无穷范数造成。要改进有监督估计量的速率，关键的想法就是构造新的得分函数。为此，将的得分函数分解为如下两个部分

文章就此提出将上式最后一项替换成，即全体标注数据与未标注数据的平均。显然，这是一个针对的相合估计并且以更快的速率收敛。因此，无标注数据可以帮助估计模型错误识别误差梯度的期望并解释了为什么无标注数据在模型错误识别的情况下可能有所帮助。这导致了如下修改的得分函数

其中，。

计算

为了计算，需要的估计量。在后文中，使用来表示条件均值函数的估计量。为了考虑未知条件均值函数的可能模型错误识别，假设存在一个函数，，并且的估计量在范数意义下收敛到。将称为条件均值模型。当条件均值模型正确识别时，则并且是的一致估计量。此外，使用标注数据拟合会导致与数据之间产生相依关系。因此文章采用了交叉拟合技术。为了简化记号，将有标记数据分为两部分和，大小为。类似地，将无标记数据分为两部分和，大小为。将和与和合并，得到两个独立的数据集和。接下来，对于，使用数据得到估计量，然后构造

因此，记并将替换为，由此得到如下半监督的Dantzig选择器

同理，可以定义如下半监督的lasso估计量

最优的半监督估计的理论性质

为了得到半监督估计量的理论性质，文章做出如下假设。

假设二：

假设（A1）是标准的特征值限制条件。假设（A2）限制协变量有界从而简化线性模型错误识别的分析。特别地，当是一致有界时，变为一个常数。如果的每个分量是高斯或次高斯的，假设（A2）仍然以高概率成立，其中，是一个常数。假设（A3）只需要存在和的二阶矩。假设（A4）是稀疏性条件。可以证明，和有着相同的误差界，因此为了简化说明，文章只展示当时的渐进性质，其中可以固定也可以随着

定理三：

若假设二成立且估计量满足，其中为确定性的实数序列。令且调节参数满足。则半监督估计量满足如下的误差界

其中。此外，若（即），且，则有如下误差界

定理二得到的误差界依赖于（估计量的随机误差），以及（可以看作是估计量的渐进偏差）。如果属于或，现有文献中已经证明存在估计量使得且，此时定理二的误差界与定理一中的minimax下界匹配。因此，称在这种情况下的估计量为最优的半监督估计量。另一方面，如果偏差项较大，定理二的误差界意味着估计量可能具有较慢的速率。实际中，设置调节参数并通过交叉验证选择常数。

安全的半监督估计

定理二表明，如果条件均值可以以一定的速率被一致的估计，例如，当属于或时，半监督估计量在minimax的意义上是最优的。然而，如果这个条件不成立，半监督估计量可能不再是最优的。尤其在时，比只使用有标注样本的估计量收敛速率更慢。为了解决这个问题，文章进一步提出了一种安全的半监督估计量，通过两步拟合程序来适应未知的条件均值，确保半监督估计量不差于有标注样本得到的估计量。为了说明该估计的理论性质，考虑lasso估计量的两步估计。重新整理lasso半监督估计对应的目标函数，可以得到如下等式

首先，针对任意给定的未知条件均值估计，计算出半监督lasso估计量和只使用有标注样本的lasso估计量。由于估计量在条件均值错误识别时并不理想，因此在第二步中，在的支撑集的一个合理估计上重新拟合。记两个lasso估计量的支撑集为和。由此定义安全的半监督估计量为

其中通过如下方式得到，

由于上式要求，这意味着对于任意。因此，安全半监督估计量只在估计的支撑集上与不同。由于和的估计目标都是，可以将视为的估计量。首先，如果初始估计量有较快的收敛速率，由于正则化项的存在，。因此将继承的快速收敛速率。在第二种情况下，如果由于模型错误识别而收敛速率较慢，通过合适的调节参数，可以得到。

定理三：若假设二成立，且与。假设调节参数，和满足和。则对于，有

其中，。

定理三表明，安全的半监督估计量的收敛速率不会比有监督估计量差。因此，倘若初始估计量在minimax意义上最优，则也为最优并且不差于只使用有标注样本的估计量，即使条件均值被错误识别。

聚合半监督估计量

由于半监督估计量的性能依赖于条件均值的估计。而实际中很难找到条件均值的相合估计量。并且针对通常有多种选择，而其中不包含相合的估计。因此文章为了解决这个问题，拓展了安全半监督估计量的两步估计过程，通过聚合不同的半监督估计量以达到更好的估计效果。假定有两个不同的条件均值估计量和。因此在第一步，得到对应的半监督lasso估计量为和，调节参数分别为和。记两个估计量的支撑集分别为和。在第二步，以为初始估计量，定义聚合估计量为

其中

不同于安全半监督估计量的第二步估计，这里使用了无标注数据来计算以此实现相较于和更快的收敛速率，虽然的构造对于和并不对称，但是后续理论分析表明，和的相对顺序并不重要。

性质一:

若假设二成立，且与。估计量和满足与，其中。记与。调节参数满足与。则对于，有

其中。

性质一表明，聚合半监督估计量有着和之中最优的收敛速率。同样的，如果还存在第三个半监督估计量，则可以以为初始估计量并重复拟合的过程，得到最终估计量有着三个估计量中最好的收敛速率。总体上讲，只要半监督估计量的数量有限，总可以通过聚合他们来提高最终估计的性能。

数值模拟

文章首先生成维的多元正态随机向量，其中。将协变量定义为且对于。针对条件均值，文章考虑三种模型，分别为

模型一：

模型二：

模型三：

其中的均为标准正态向量，模型三中与为随机选择的支撑集，。在不同的数据生成模型下，文章考虑了不同的组合，并在一定范围内变化的大小，并且在每个设定下进行100次重复实验。针对模型一的设定，图1给出了模拟结果，其中SSL1和SSL2分别代表使用稀疏可加模型与交互效应模型的半监督估计量；Dantzig代表只使用标注样本的Dantzig选择器；SLL12代表结合SSL1和SSL2的聚合估计量；S-SSL1和S-SSL12分别代表以SSL1和SSL12为初始估计量的安全半监督估计量。

由于模型一是带二次项的可加模型，因此SSL1和SSL2都可以很好地估计条件均值函数，因此他们的估计误差远小于Dantzig选择器。此外，可以看到SSL1优于SSL2，因为SSL1中的可加模型可以更好地估计条件均值函数。通过聚合SSL1和SSL2，估计量SSL12在所有方法中实现了最小的误差。对于两个安全半监督估计量S-SSL1和S-SSL12，他们保留了相应半监督估计量SSL1和SSL12的范数中的最优速率，并且明显优于Dantzig选择器，这与理论性质一致。模型二与模型三对应的模拟结果分别在图2与图3中给出。由于模型二是带交互项的可加模型，因此稀疏可加模型并不相合，因此SSL1的估计误差相较于只使用标注样本的Dantzig选择器并改善。然而，安全半监督估计量S-SSL1成功缓解了SSL1较差的表现并且在和范数的意义上均优于标注样本的Dantzig选择器。同时，由于交互效应模型正确识别了模型二，因此SSL2，SSL12与S-SSL12均有较小的估计误差。针对模型三，由于真实的条件期望与模型一差距较大，造成了SSL1的估计误差较大。同时，由于交互效应模型并不能正确识别模型三中的三阶项，因此SSL2的估计误差也较大。但其仍可以解释部分模型三中的非线性关系，因此SSL2的表现在和范数意义下仍优于Dantzig选择器。

实际数据分析

文章的实际数据来自于麻省理工学院计算生物实验室整理的MIMIC-III数据库（Johnson et al. 2016）。该数据库包含了38597位在2001年至2012年间在Beth Israel Deaconess医护中心接受过重症监护的十六岁以上患者的匿名医疗数据。文章通过半监督估计量来研究血液样本中的白蛋白水平与其他变量之间的关系。经过处理后的数据包含4787个样本，每个样本有个协变量。重复100次实验，每次随机选取2000个样本，并将其中的前500个样本记为标注样本，剩下的1500个样本作为未标注样本并隐去样本的白蛋白水平。在每次实验中，从500开始逐渐增加未标注样本的数量。由于工作模型已经包含了一些交互项，因此文章使用随机森林来估计相应估计量的条件均值函数，实验结果总结在图4。其中真实的回归系数通过4787个全样本的lasso估计量得到。

从图4可以看出，随着从1增加到3，相比于有监督的lasso，提出的S-SSL估计量可以将误差降低约7.6%到10.3%，而提出的SSL估计量可以将误差降低约10.1%到21.7%。对于误差，S-SSL估计量的降低幅度约为14.9%到22.4%，而SSL估计量的降低幅度约为23.2%到28.6%。SSL估计量的表现优于S-SSL估计量，尽管两者差距不如与有监督lasso的比较显著，这可能是由于随机森林已经有效地拟合了条件均值函数。因此，S-SSL估计量的表现与SSL估计量类似。

参考文献

Abdullah, Sheikh S., Neda Rostamzadeh, Kamran Sedig, Amit X. Garg, and Eric McArthur. "Visual analytics for dimension reduction and cluster analysis of high dimensional electronic health records." In Informatics, vol. 7, no. 2, p. 17. MDPI, 2020.

Bellec, Pierre C., Guillaume Lecué, and Alexandre B. Tsybakov. "Slope meets lasso: improved oracle bounds and optimality." The Annals of Statistics 46, no. 6B (2018): 3603-3642.

Berk, Richard, Andreas Buja, Lawrence Brown, Edward George, Arun Kumar Kuchibhotla, Weijie Su, and Linda Zhao. "Assumption lean regression." The American Statistician (2021).

Bickel, Peter J., Ya’acov Ritov, and Alexandre B. Tsybakov. "Simultaneous analysis of Lasso and Dantzig selector." (2009): 1705-1732.

Buja, Andreas, Lawrence Brown, Richard Berk, Edward George, Emil Pitkin, Mikhail Traskin, Kai Zhang, and Linda Zhao. "Models as approximations I." Statistical Science 34, no. 4 (2019): 523-544.

Huang, Jian, Joel L. Horowitz, and Fengrong Wei. "Variable selection in nonparametric additive models." Annals of statistics 38, no. 4 (2010): 2282.

Johnson, Alistair EW, Tom J. Pollard, Lu Shen, Li-wei H. Lehman, Mengling Feng, Mohammad Ghassemi, Benjamin Moody, Peter Szolovits, Leo Anthony Celi, and Roger G. Mark. "MIMIC-III, a freely accessible critical care database." Scientific data 3, no. 1 (2016): 1-9.

Kohane, Isaac S. "Using electronic health records to drive discovery in disease genomics." Nature Reviews Genetics 12, no. 6 (2011): 417-428.

Liao, Katherine P., Tianxi Cai, Vivian Gainer, Sergey Goryachev, Qing Zeng‐treitler, Soumya Raychaudhuri, Peter Szolovits et al. "Electronic medical records for discovery research in rheumatoid arthritis." Arthritis care & research 62, no. 8 (2010): 1120-1127.

Lin, Yi, and Hao Helen Zhang. "Component selection and smoothing in multivariate nonparametric regression." (2006): 2272-2297.

Meier, Lukas, Sara Van de Geer, and Peter Bühlmann. "High-dimensional additive modeling." (2009): 3779-3821.

Raskutti, Garvesh, Martin J Wainwright, and Bin Yu. "Minimax-optimal rates for sparse additive models over kernel classes via convex programming." Journal of machine learning research 13, no. 2 (2012).

Verzelen, Nicolas. "Minimax risks for sparse regressions: Ultra-high dimensional phenomenons." (2012): 38-90.

Weisenthal, Samuel J., Caroline Quill, Samir Farooq, Henry Kautz, and Martin S. Zand. "Predicting acute kidney injury at hospital re-entry using high-dimensional electronic health record data." PloS one 13, no. 11 (2018): e0204920.

Zhao, Junlong, and Chenlei Leng. "An analysis of penalized interaction models." (2016): 1937-1961.

http://mp.weixin.qq.com/s?__biz=MzA5MjEyMTYwMg==&mid=2650294045&idx=1&sn=81311bf3f7b20912ea6adbbff50a28ac

狗熊会

狗熊会，统计学第二课堂！传播统计学知识，培养统计学人才，推动统计学在产业中的应用！

最新文章

非稀疏回归模型的结构化迭代划分方法及其在生物数据分析中的应用

狗熊会在线实习 | 基金业绩的影响因素分析

狗熊会线上学术报告·博士生论坛 | 张妍：加权关键词共现网络的潜在空间模型及其在统计学知识发现中的应用型

【最后一天】狗熊会在线实习 | 地图POI数据的获取与应用

狗熊会线上学术报告·博士生论坛 | 余柏辰：港口门机抓斗的异常摆动检测的几何模型

大赛通知 | 第五届全国研究生工业与经济金融大数据建模与计算大赛

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

上海财经大学统计与管理学院面向全球诚聘英才（Faculty Recruitment，2025）

语音聊天客户响应预测的理论驱动深度学习方法

狗熊会在线实习 | 地图POI数据的获取与应用

在线学术报告 | 朱进博士：强化学习的变量选择方法

【最后一天】狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 齐正灵助理教授：一个用于混杂部分可观测马尔可夫决策过程的策略梯度方法

在线学术报告 | 刚博文助理教授：用合成统计量来整合推断结果

新书推荐 |《统计学习(R语言版)》——开启数据科学的钥匙

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

数据分析从入门到精通，狗熊学习卡上线啦!

高维半监督学习的最优和安全估计

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

狗熊会在线实习 | 智慧零售领域中用户画像的搭建与应用

在线学术报告 | 孙科博士：双边市场中 A/B 测试的最优设计

【最后一天】狗熊会在线实习 | 深度学习进阶：肺部医疗影像识别

武汉大学数据科学专业硕士（专业代码：1453S1）诚邀您报名

在线学术报告 | 梁哲教授：航空智能决策

狗熊会案例教学线上研讨｜吴纯杰：一流线上线下混合课程的建设和设计——以上财《数理统计》为例

数据分析从入门到精通，狗熊学习卡上线啦!

会议预告｜首都消费脉动（第2期）：北京市线下中小微消费市场季度观察

狗熊会案例教学线上研讨｜吴纯杰：一流线上线下混合课程的建设和设计——以上财《数理统计》为例

狗熊会在线实习项目《网络结构数据分析与应用科研提升》顺利结项

《你必备的大模型高效应用与开发》直播先导课

针对高维混合型数据的稀疏聚类方法研究

狗熊会在线实习 | 深度学习进阶：肺部医疗影像识别

在线学术报告 | 朱俊贤博士：最优子集选择问题的多项式算法

【最后一天】狗熊会在线实习 | 深度学习进阶：车牌定位与车型识别

AI助力提升工作效率：《你必备的大模型高效应用与开发》工作坊

【最后一天】数据科学应用职业技能证书(初级)考试服务项目招募(2024年10月)

狗熊会案例教学线上研讨｜李丰：大数据计算与预测课程设计

精品案例 | 强化学习中的时序差分法

狗熊会案例教学线上研讨｜李丰：大数据计算与预测课程设计

基于迁移学习的多源高斯图模型联合估计

北京市民十一假期钱花哪儿了？

数据科学应用职业技能证书(初级)考试服务项目招募(2024年10月)

强化学习中的统计推断——假设检验篇（上）

狗熊会在线实习 | 深度学习进阶：车牌定位与车型识别

在线学术报告 | 杨在教授： Toeplitz协方差矩阵的Carathéodory-Fejér定理与信号谱分析

【最后一天】狗熊会在线实习 | Python进阶：大模型与Python数据分析

在线学术报告 | 孙强副教授：用统计学让AI变得可信

在线学术报告 | 李木易教授：基于多维谱方法的弱向量自回归模型的拟合优度检验

精品案例 | 强化学习中的蒙特卡罗方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉