非稀疏回归模型的结构化迭代划分方法及其在生物数据分析中的应用

学术   2024-11-11 07:03   广东  
作者介绍
禹舜,中央财经大学数理统计专业硕博连读,师从杨玥含教授和盖玉洁教授。主要研究方向包括具有非稀疏、相关性结构的高维线性模型的建模研究等,相关成果发表在Statistical Methods in Medical Research期刊上。
今天要跟大家分享的论文是非稀疏回归模型的结构化迭代划分方法及其在生物数据分析中的应用,原论文为:Shun Yu and Yuehan Yang, A structured iterative division approach for non-sparse regression models and applications in biological data analysis. Statistical Methods in Medical Research. 2024;33(7):1233-1248.

摘要

在本文中,我们专注于估计具有非稀疏结构的数据的建模问题,特别关注表现出高度相关特征的生物数据。生物和金融等各个领域都面临着非稀疏估计的挑战。我们使用所提出的方法解决问题,称为结构化迭代划分。结构化迭代划分有效地将数据划分为非稀疏和稀疏结构,并消除了众多不相关的变量,在保持计算效率的同时显着降低了误差。数值和理论结果证明了所提出的方法在广泛问题上的竞争优势,并且所提出的方法在与几种现有方法的数值比较中表现出出色的统计性能。我们将所提出的算法应用于两个生物学问题,基因微阵列数据集和嵌合蛋白质数据集,分别用于乳腺癌远处转移的预后风险和阿尔茨海默病。结构化迭代划分为基因识别和选择提供了见解,我们还在预测癌症风险和识别关键因素方面提供了有意义的结果。
关键词:非稀疏结构;生物数据分析;划分策略;坐标下降

1、引言

近年来,非稀疏结构在基因表达数据、经济学等多个领域具有极其重要的地位。这是因为,无论采用何种建模方式,这些非稀疏结构中的非零参数都相当密集,使其成为高维设置中最具挑战性的模型之一(Zhu和Bradic, 2018)。例如,基因表达数据描述了不同生物样本中基因的活跃程度,而基因表达中往往存在着复杂的调控关系(Chesler 等, 2005; Van Dam 等, 2018)。在生物学研究中,识别非稀疏结构对于构建基因调控网络、识别关键基因以及发现生物学意义至关重要(Consortium等, 2015; Zhao 和Zou , 2022)。Giannone等(2021)观察到,在许多重要的经济数据集中预测变量之间存在非稀疏的相关性。
然而,现有基于稀疏性假设向目标函数添加惩罚项的正则化方法(Fan等, 2020; Zhang 和 Lin, 2013)并不适用于非稀疏结构。Tsuda和Imaizumi(2023)研究了带有相关噪声的高维线性回归问题,证明了在协方差矩阵满足一定假设的条件下,无正则化的估计量可以实现一致性。Boyle等(2017)提出,复杂性状与多个基因相关,并强调在不依赖稀疏性假设的情况下,多基因模型可以有效地进行建模。
非稀疏性对传统统计方法和理论性质造成了重大挑战。许多研究人员已经提出了处理高维统计中非稀疏结构的新方法和框架。Belloni等(2014)允许在高维模型设置下,相关变量的数量以的速度增长,而Cai和Guo(2017)则将这一限制放宽到。Zheng等(2021)在讨论高维线性回归模型中潜在变量的非稀疏学习时,同时估计了重要的可观测预测变量和非稀疏潜在变量因子。Aoshima和Yata(2019)提出了高维非稀疏设置下的二次分类器。为了适应经济变量在时间和横截面之间依赖关系的复杂结构,对此也提出了新的方法(He 等, 2023)。Zhao等(2023)提出了一种新的线性变换逐点估计器来估计系数,放宽了高维问题中常见的稀疏性假设,并考虑了系数和预测变量之间相关性的强度。Zhu和Bradic(2016)讨论了在不假设模型参数稀疏性的情况下,高维线性模型中的两样本测试问题,并提出了一种新的推断方法——CorrT,用于高维非稀疏线性模型中的假设检验(Zhu和Bradic, 2018)。Bradic等(2022)提出了一个新的框架,以研究在不基于稀疏性假设的条件下β的检测率。这些研究表明,开发能够有效处理高维设置中非稀疏性的统计方法越来越受到关注。
本文旨在研究具有非稀疏结构的高维线性模型,重点关注如何保持准确估计、减少估计误差以及分析具有这些结构的生物学数据。为了解决这一挑战,我们根据相关性的大小将数据分为信息密集型和非信息密集型两组。我们提出了一种新的算法,即稀疏和非稀疏模型的结构化迭代划分(SID),以有效地估计复杂模型。具体来说,为了处理具有非稀疏结构的模型,我们将变量分为稀疏部分和非稀疏部分,并分别进行迭代优化,同时最小化整体误差大小。通过模拟实验,将所提出的方法与几种现有方法进行了比较,结果表明,该方法在模型估计和预测方面表现良好。此外,该算法还应用于两个生物学数据集,并提供了有意义的结果。这是一种很有前景的方法,其有效性已在模拟实验和实际应用中得到了验证。
本文的其余部分组织如下。第2节介绍了所提出的算法。第3节讨论了算法的理论性质。第4节和第5节分别提供了数值模拟和应用实例。

2、模型和方法

考虑线性回归模型,

其中,是响应变量,是具有个预测变量的的矩阵,而是随机误差。为了在高维数据中估计非稀疏结构,我们将数据分为非稀疏组和稀疏组,并分别进行估计,以提高建模精度。受到Sure Independence Screening(SIS)方法的启发,我们首先根据所有预测变量的边际效用大小进行排序,记为 ,其中。然后,我们选择一个合适的预设阈值来区分模型中的非稀疏集,即
上述线性模型可以重写为:
其中,分别是非稀疏集和稀疏集的索引集合,即当时,,而的许多元素等于零。与SIS不同的是,我们没有从上述集合中移除未选中的预测变量。在非稀疏集中识别出具有较大边际效用的预测变量,其余则在稀疏集中识别。我们的划分策略与SIS的选择作用相似但有所不同。SIS倾向于选择一个比相关集更大的集合,这也由SIS的属性所证明(fan,2020statistical)。相比之下,我们的划分策略倾向于选择一个比相关集更小的集合。这是因为我们试图避免不相关特征被误选的情况。当我们将变量分为稀疏集和非稀疏集时,非稀疏集中的系数被估计为非零。在这种情况下,划分过程对我们的方法至关重要,以避免将不相关的特征选入非稀疏集。通过将非稀疏部分的系数限制为非零,我们确保了感兴趣的真实变量能够得到更准确的估计。另一方面,我们为其余特征考虑了一个稀疏集,以确保True Positive Rate(TPR)。根据这种划分策略,该方法能够在变量选择和系数估计方面表现出高TPR和低误差,这表明在稀疏和非稀疏结构下该方法具有优越性。基于这些关键信息,我们提出了一种自适应迭代算法来分别估计两个集合的系数。
首先,为了在不丢失整个模型信息的情况下估计密集集,我们利用密集预测变量的精度矩阵的信息。受Bradic等(2022)的启发,设的协方差矩阵,且表示的精度矩阵。然后,密集集可以通过以下函数进行估计。最初,在没有整个模型信息的情况下,我们计算初始值如下:
通过计算期望,即
我们得到

因此,在迭代过程中,我们通过以下函数求解
为了估计稀疏集,即,在迭代过程中,我们通过提出一个带有更新权重的坐标下降算法来提高建模精度。具体来说,是根据损失函数进行估计的:
其中是我们为损失函数中的惩罚项添加的权重。权重是根据Lasso的估计值计算的。
该方法将数据分为信息密集和非信息密集组。此外,我们使用自适应权重在惩罚项中对系数进行不同的惩罚。当应用权重时,该方法称为ASID;当不应用权重时,称为SID。受Bradic等(2022)的启发,信息密集组是利用密集预测变量的精度矩阵进行建模的。该策略对于非稀疏结构是有效的,因为Bradic等(2022)已经表明其准确性可以与精度矩阵及其对应行的稀疏程度相关联。在这种情况下,可以高精度地估计密集预测变量,同时显著减少来自不相关预测变量的干扰。为了准确估计信息密集和非信息密集组,并保持两组之间的平衡,我们提出了具有良好收敛性、误差界和计算效率的坐标下降算法。惩罚中的自适应权重有助于减少因在稀疏集中对所有变量不加区分地应用软阈值而产生的偏差。通过将非稀疏集中的系数约束为非零,算法迭代地精炼系数的全局信息,从而产生更精确的回归结果。

3、理论性质

在本节中,我们提供了结构化迭代划分(SID)和自适应SID(ASID)的理论性质。对于这两种结构,非稀疏协变量遵循随机设计,即,其中Σ是未知矩阵;稀疏协变量可以是固定设计或随机设计。不失一般性,我们假设噪声项。随着样本数量的增长,我们允许协变量的维度和非稀疏协变量的维度增加。可以远大于样本量,而低于样本量。总体而言,来自稀疏结构和非稀疏结构的相关协变量数量可以大于。具体来说,我们假设,其中。设。因此,我们关注在非稀疏结构的高维线性模型下所提出方法的性质。
我们首先提供以下结果,以保证SID的划分准确性。

定理1:假设,其中。假设,其中是为正的常数。那么,给定,我们有概率(其中是为正的常数)使得,

基于上述结果,划分过程会选择包括所有相关预测变量的活跃集。假设所提出算法的oracle解为,其中

我们接下来提供所提出算法的收敛性质。

定理2:假设总体协方差矩阵的最大特征值,且满足限制特征值条件,即对于某个常数,以下不等式成立:
对于所有,其中。所提出的算法收敛于oracle解。
然后,我们证明该估计量具有上界。
定理3:在定理2的相同设置下,估计量的以下误差界成立,
上述结果同样适用于带权重的结构化迭代划分,即ASID,因为自适应权重由Lasso估计给出。

4、模拟实验

在本节中,我们通过模拟实验比较了以下方法的性能:Lasso(Tibshirani, 1996)、自适应Lasso(简称Alasso)(Zou, 2006)、Group Lasso(Yuan和Lin, 2006)、Elastic net(Zou和Hastie, 2005)、使用确定独立性筛选(SIS)(Fan和Lv, 2008)用于变量筛选后使用普通最小二乘法(OLS)进行回归,称为SIS-OLS、Bradic方法(Bradic等, 2022)以及我们提出的两种方法(带权重和不带权重),分别称为SID和ASID。Lasso、ALasso、GroupLasso和弹性网络的结果由R语言的glmnet包提供。我们对每种设置进行了100次模拟。模拟基于之前提到的线性模型,假设,其中是协方差矩阵,且为正常数。所有非零系数的值均设为5。在固定样本量的情况下,我们考虑了以下场景:
场景1:维度变化。非零系数()的数量为50,预测变量相互独立。改变的大小,取值为=150,175,200,225,250,1000。
场景2:稀疏性变化。固定维度 = (200, 100),并设置非零系数的数量: = 50, 60, 70, 80。
场景3:相关性变化。固定维度和非零系数的数量,即=(200,100,50)。设置=1,对于j,对于。我们通过调整=(0,0.1,0.3,0.5)来考察的不同结构。
场景4:信噪比变化。固定维度和非零系数的数量,即=(200,100,50)。改变扰动项的大小=(1,1.5,2,2.5)。
对于所有方法,都使用十折交叉验证来选择调优参数。结果的均值和标准差列于表1至4中,这些表包含以下指标:
  •  误差:  
  •  误差:  
  • True positive rate (TPR):  
  • False positive rate (FPR):  
表1至表4显示,随着维度的增加,ASID相比SID和其他方法具有更高的TPR和更低的误差。SID和ASID都能准确识别出真正相关的变量。我们的方法误差大约比其他方法低10%。在极高维情况下(=1000,非零系数个数=50),即相对稀疏的设置下,我们的方法误差与其他方法相当,但TPR显著高于Lasso、Elastic Net和Group Lasso。随着稀疏性增加(即非零系数个数减少),表2表明,ASID在非零系数数量减少时始终维持更高的真正率和更低的误差。通过改变选择阈值进行ROC分析可以进一步改进基于真正率和假正率的评估。由于资源有限,相关实验未在此进行。
表3和4进一步证明了ASID在场景3和场景4下与其他方法相比,在模型选择和系数估计方面的优越性能。这证明了该方法的稳健性和在处理高度相关预测变量和大量噪声场景中的有效性。
表1: 在场景1下各方法的表现情况

表2: 在场景2下各方法的表现情况

表3: 在场景3下各方法的表现情况


表4: 在场景4下各方法的表现情况

为了进一步说明估计误差的变化,图1比较了除Bradic和SIS-OLS(因为它们表现不佳)外,所有其他方法在所有场景下的系数估计的误差。带方形符号的红色线条表示ASID的误差均值;带线帽的直线表示标准差区间;其他不同符号的线条代表其他方法。如图所示,ASID在几乎所有场景下都具有最小的误差。在噪声增大的第四场景下,ASID的估计误差明显小于其他方法。当预测变量之间的相关性更高时,Lasso和ASID的误差更加接近,而其他两种方法的表现更差。因此,所提出的方法在各种场景下都能确保一致的有效性。
图1: 各方法在不同场景设置下的误差变化

5、在生物学数据集上的应用

在本节中,我们将所提出的方法应用于两个生物学数据集。第一个数据集是基因表达数据,我们用它来识别与乳腺癌预后风险相关的基因表达。第二个数据集是蛋白质微阵列数据,用于探索与阿尔茨海默病(AD)生物标志物相关的蛋白质微阵列。所有数据集都已标准化。
基因或蛋白质表达数据集包含许多因变量,其中许多对研究问题的影响微乎其微。在进行分析之前,我们应用确定性独立筛选(SIS)来过滤超高维数据集中的许多不相关变量。具体而言,基于SID的排序指标,我们选择排名前的预测变量,并删除其余变量,记为。然后,我们从中选择排名前的变量,其中,并将其记为中剩余的预测变量被归为稀疏集

5.1基因表达数据集

在本部分中,我们研究一个基因表达问题,旨在量化乳腺癌远处转移的预后风险。数据由Cheng等(2017)从GEO数据库提供。这个问题在防止早期乳腺癌过度治疗以及提供更具个性化的治疗方案方面发挥着重要作用。它推动了众多多基因组合分类器的发展,如Cheng等(2017)开发的18基因分类器,该分类器可预测局部/区域复发和远处转移,为精准医疗和乳腺癌治疗的新时代铺平了道路。该数据集包含683个乳腺癌样本、从这些样本中提取的54,675个mRNA以及相应的18基因分类器(18-GC)评分结果。具体而言,18基因分类器将评分分为两类:评分<21表示低风险,评分≥21表示高风险。
我们使用所提出的方法SID和ASID,以及其他三种方法(即Bradic、Adaptive lasso和Lasso)来分析数据。由于无法使用FPR、TPR和l_2误差来衡量模型性能,因此我们使用均方误差(MSE)和风险分类的准确性进行比较。我们通过将数据集分为70%的测试集和30%的验证集来评估性能。估计模型用于预测测试数据的结果,从而得出整个数据集以及两个风险类别的预测误差和分类准确性。我们选择不同的参数设置,并在表5中列出MSE,在表6中列出准确性。可以看出,我们提出的方法的预测误差始终小于其他方法。我们的方法也表现出最高的准确性,特别是在评分<21的分类中。我们还探索了在不同设置下变化集合数量时的基因选择。图2展示了不同方法和设置下的预测准确性和所选基因数量。在=80时,每种方法都达到了其最高预测准确性,而我们提出的方法在这一指标上继续领先。一些基因在所有方法中均被一致选中,与Cheng(2017)中的原始18个基因相比,存在显著重叠(如Ddx39、BUB1B、CCNB1)。此外,一些基因(如Mybl2、Fanca、E2f8、Rrm2、Tacc3)与先前的研究不同,但仍被认为与乳腺癌相关,文献中也有支持(Huang等,2011;Ye等,2016;Xiao等,2021;Kristensen等,2022)。
表 5: 在基因表达数据中各方法在不同设置下的MSE
表6: 在基因表达数据中各方法的准确率
表 7: 在基因表达数据中各方法在不同设置下选择基因的个数
图2: 各方法基因表达数据中的表现情况

5.2蛋白质微阵列数据

在这一小节,我们通过分析来自 Nnagele等(2011)的蛋白质微阵列数据来研究阿尔茨海默病(AD)。这些数据来自Invitrogen的ProtoArray v5.0人类蛋白质微阵列,包含9,486种独特的人类蛋白抗原。阿尔茨海默病是一种进行性的痴呆形式,其特征是记忆、思维过程、行为和社交技能的退化。Mini-Mental State Examination(MMSE)是一种广泛使用的AD诊断工具 。
我们研究的主要目标是开发一种可靠且准确的血液检测方法,以检测个体血液中的抗体,作为AD诊断的潜在生物标志物。我们期望通过这样的诊断,可以建立早期筛查策略,使患者能够及时接受有效的治疗。数据包括350个样本,MMSE得分范围为2到24。对于每个样本,分析包含9,486种抗原的微阵列,以识别哪些抗体在作为潜在生物标志物方面表现出更高的可靠性。
在该数据集中,我们进行了与上述研究类似的实证分析,评估五种不同方法的性能:Lasso、Adaptive Lasso、Bradic、SID和ASID。性能评估以预测误差作为主要指标。我们为每种方法选择不同的参数设置,并比较它们在误差方面的表现。该分析的结果总结在表 6和表7 中。结果表明,SID和ASID在所有评估的方法中表现最佳,预测误差低于其他方法。图 3展示了各种方法在预测准确性和所选抗原数量方面的比较。结果表明,无论活动集数量的变化如何,ASID始终选择相对稳定数量的基因,并在每个设置中表现出最高的预测准确性。
不同于 Nagele等(2011) 的研究,该研究评估了个体生物标志物在区分阿尔茨海默病患者血清中的重要性,我们的重点在于识别在AD早期阶段调节免疫系统反应的预测因子。在不同的阈值水平下,各种方法一致选择了几个抗原,包括FUSIP1、PKN1、ULBP1、GATA3、zinc finger protein 258,ZMYM6、EIF2AK2和RETN。这些抗原都与AD的发病机制有关。例如,FUSIP1对神经发育至关重要,PKN1可能在神经保护中发挥关键作用,ULBP1与血管性痴呆相关,而GATA3的表达在AD患者中显著减少。ZMYM6的异常表达与轻微的认知缺陷有关。EIF2AK2与HSV-1感染相关,并且是影响AD易感性的遗传变异。RETN的水平,作为一种抵抗素,能够作为AD病理生理中免疫系统激活的预测因子。鉴于预防和干预AD的挑战 (Mckhann等,2011),我们的方法为通过影响免疫系统反应来预测和干预该疾病提供了有价值的工具。
表 8: 在蛋白质微阵列数据中各方法在不同设置下的MSE
表 9: 在蛋白质微阵列数据中各方法在不同设置下选择的蛋白质个数
图3: 各方法在蛋白质微阵列数据中的表现情况

6、总结

在本文中,我们不同于依赖稀疏设置或研究其他数据结构(如生物学中的相关性) (Chen和Yang,2023;Biswas等2022),考虑了估计非稀疏结构数据的问题,并专注于使用所提出的方法解决生物学问题。为了实现高建模准确性,我们提出了一种新颖的迭代算法,称为稀疏与非稀疏模型的结构化迭代划分(SID)。该划分算法旨在预测和选择包含非稀疏结构的系数向量的变量。在该算法中,我们使用排名度量将系数向量划分为稀疏和非稀疏集,并通过修改的坐标下降法分别估计这两个部分。在算法的迭代过程中,我们利用其他估计系数的信息来更新每个系数的估计,这有效降低了估计误差,同时保持了计算效率。我们表明,划分策略有效地实现了最优解,所提出的算法收敛到Oracle解,并在误差界限上达到了最优速率。我们通过模拟评估所提出的方法。模拟结果表明,SID在估计和选择方面表现出色。该方法能够准确地以低误差和高TPR估计模型,并在有关的变量数量增大、变量间相关性增大以及噪声干扰增大的情况下仍然表现良好。
我们提出的方法在生物信息学分析中表现良好。在遗传数据中,鉴于样本数量通常显著小于变量数量,并且关键变量的数量相对较大,消除许多无关特征并在建模前将数据划分为信息密集型和非信息密集型组更加合理。SID不仅为基因识别和选择提供了有价值的见解,还降低了预测误差,获得了更精确的结果。通过将SID应用于遗传数据,研究人员可以更好地理解潜在的生物过程,并在基因选择方面做出更明智的决策,以便进行进一步的实验验证。
然而,所提出的方法在面对极其密集的结构或高度相关的预测变量时也存在局限性。在极其密集的结构下,筛选策略可能错误地排除大量相关预测变量,从而引入显著的建模误差。此外,在处理相关数据时,仅依赖 l_1 惩罚是不够的。考虑到实际数据集通常表现出相关性,因此需要针对这些数据探索更广泛的惩罚正则化方法,这也是我们未来工作的方向。此外,根据我们的数值观察,SID的一个限制是划分策略可能阻碍了从活动集中移除无关变量的发展。开发一种既计算简单又提高准确性的划分策略是未来研究的重要领域。

参考文献

[1] Aoshima, M. and Yata, K. (2019). High-dimensional quadratic classifiers in non-sparse settings. Methodology and computing in applied probability, 21:663–682.
[2] Belloni, A., Chernozhukov, V., and Hansen, C. (2014). Inference on treatment effects after selection among high-dimensional controls. Review of Economic Studies, 81(2):608–650.
[3] Biswas, A., Chakraborty, S., and Baruah, V. J. (2022). Estimation of the proportion of true null hypotheses under sparse dependence: Adaptive fdr controlling in microarray data. Statistical Methods in Medical Research, 31(5):917–927.
[4] Boyle, E. A., Li, Y. I., and Pritchard, J. K. (2017). An expanded view of complex traits: from polygenic to omnigenic. Cell, 169(7):1177–1186.
[5] Bradic, J., Fan, J., and Zhu, Y. (2022). Testability of high-dimensional linear models with nonsparse structures. Annals of statistics, 50(2):615.
[6] Cai, T. T. and Guo, Z. (2017). Confidence intervals for high-dimensional linear regression: Minimax rates and adaptivity. The Annals of Statistics, 45(2):615 – 646.
[7] Chen, X. and Yang, Y. (2023). Local linear approximation with laplacian smoothing penalty and application in biology. Statistical Methods in Medical Research, 32(6):1145–1158.
[8] Cheng, S. H., Horng, C.-F., West, M., Huang, E., Pittman, J., Tsou, M.-H., Dressman, H., Chen, C.-M., Tsai, S. Y., Jian, J. J., et al. (2006). Genomic prediction of locoregional recurrence after mastectomy in breast cancer. Journal of Clinical Oncology, 24(28):4594–4602.
[9] Cheng, S. H.-C., Huang, T.-T., Cheng, Y.-H., Tan, T. B. K., Horng, C.-F., Wang, Y. A.,  Brian, N. S., Shih, L.-S., and Yu, B.-L. (2017). Validation of the 18-gene classifier as a prognostic biomarker of distant metastasis in breast cancer. Plos One, 12(9):e0184372.
[10] Chesler, E. J., Lu, L., Shou, S., Qu, Y., Gu, J., Wang, J., Hsu, H. C., Mountz, J. D., Baldwin, N. E., Langston, M. A., et al. (2005). Complex trait analysis of gene expression uncovers polygenic and pleiotropic networks that modulate nervous system function. Nature genetics, 37(3):233–242.
[11] Consortium, G., Ardlie, K. G., Deluca, D. S., Segr`e, A. V., Sullivan, T. J., Young, T. R., Gelfand, E. T., Trowbridge, C. A., Maller, J. B., Tukiainen, T., et al. (2015). The genotype-tissue expression (gtex) pilot analysis: multitissue gene regulation in humans. Science, 348(6235):648–660.
[12] Fan, J., Li, R., Zhang, C.-H., and Zou, H. (2020). Statistical foundations of data science. CRC press.
[13] Fan, J. and Lv, J. C. (2008). Sure independence screening for ultrahigh dimensional feature space. Journal of the Royal Statistical Society: Series B, 70(5):849–911.
[14] Giannone, D., Lenza, M., and Primiceri, G. E. (2021). Economic predictions with big data: The illusion of sparsity. Econometrica, 89(5):2409–2437.
[15] He, Y., Jaidee, S., and Gao, J. (2023). Most powerful test against a sequence of high dimensional local alternatives. Journal of Econometrics, 234(1):151–177.
[16] Huang, J., Morehouse, C., Streicher, K., Higgs, B. W., Gao, J., Czapiga, M., Boutrin, A., Zhu, W., Brohawn, P., Chang, Y., et al. (2011). Altered expression of insulin receptor isoforms in breast cancer. PloS one, 6(10):e26177.
[17] Kristensen, L. S., Jakobsen, T., Hager, H., and Kjems, J. (2022). The emerging roles of circrnas in cancer and oncology. Nature reviews Clinical oncology, 19(3):188–206.
[18] McKhann, G. M., Knopman, D. S., Chertkow, H., Hyman, B. T., Jack Jr, C. R., Kawas, C. H., Klunk, W. E., Koroshetz, W. J., Manly, J. J., Mayeux, R., et al. (2011). The diagnosis of dementia due to alzheimer’s disease: Recommendations from the national institute on aging-alzheimer’s association workgroups on diagnostic guidelines for alzheimer’s disease. Alzheimer’s & dementia, 7(3):263–269.
[19] Mungas, D. (1991). In-office mental status testing: a practical guide. Geriatrics, 46(7). Nagele, E., Han, M., DeMarshall, C., Belinka, B., and Nagele, R. (2011). Diagnosis of alzheimer’s disease based on disease-specific autoantibody profiles in human sera. PloS one, 6(8):e23112.
[20] Negahban, S., Ravikumar, P., Wainwright, M. J., and Yu, B. (2012). A unified framework for high-dimensional analysis of m-estimators with decomposable regularizers. Statistical Science, 27(4):1348–1356.
[21] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B, 58(1):267–288.
[22] Tseng, P. (2001). Convergence of a block coordinate descent method for nondifferentiable minimization. Journal of Optimization Theory and Applications, 109(3):475 – 494.
[23] Tsuda, T. and Imaizumi, M. (2023). Benign overfitting of non-sparse high-dimensional linear regression with correlated noise. arXiv preprint arXiv:2304.04037.
[24] Van Dam, S., Vosa, U., van der Graaf, A., Franke, L., and de Magalhaes, J. P. (2018). Gene co-expression analysis for functional classification and gene–disease predictions. Briefings in bioinformatics, 19(4):575–592.
[25] Xiao, W., Zhang, G., Chen, B., Chen, X., Wen, L., Lai, J., Li, X., Li, M., Liu, H., Liu, J., et al. (2021). Characterization of frequently mutated cancer genes and tumor mutation burden in chinese breast cancer. Frontiers in Oncology, 11:618767.
[26] Ye, L., Guo, L., He, Z., Wang, X., Lin, C., Zhang, X., Wu, S., Bao, Y., Yang, Q., Song, L., et al. (2016). Upregulation of e2f8 promotes cell proliferation and tumorigenicity in breast cancer by modulating g1/s phase transition. Oncotarget, 7(17):23757.
[27] Yu, S. and Yang, Y. (2023). An iterative algorithm for high-dimensional linear models with both sparse and non-sparse structures. arXiv preprint arXiv:2311.05339.
[28] Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society Series B: Statistical Methodology, 68(1):49–67.
[29] Zhang, L. and Lin, X. (2013). Some considerations of classification for high dimension low-sample size data. Statistical methods in medical research, 22(5):537–550.
[30] Zhao, B. and Zou, F. (2022). On polygenic risk scores for complex traits prediction. Biometrics, 78(2):499–511.
[31] Zhao, J., Zhou, Y., and Liu, Y. (2023). Estimation of linear functionals in highdimensional linear models: From sparsity to nonsparsity. Journal of the American Statistical Association, 0(0):1–13.
[32] Zheng, Z., Lv, J., and Lin, W. (2021). Nonsparse learning with latent variables. Operations Research, 69(1):346–359.
[33] Zhu, Y. and Bradic, J. (2016). Two-sample testing in non-sparse high-dimensional linear models. arXiv preprint arXiv:1610.04580.
[34] Zhu, Y. and Bradic, J. (2018). Significance testing in non-sparse high-dimensional linear models. Electronic Journal of Statistics, 12(2):3312 – 3364.
[35] Zou, H. (2006). The adaptive lasso and its oracle properties. Journal of the American statistical association, 101(476):1418–1429.
[36] Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society Series B: Statistical Methodology, 67(2):301– 320.


数据分析从入门到精通,狗熊学习卡助您一臂之力!69元/年,狗熊会所有视频课程无限看,代码轻松学。欢迎小伙伴们扫码购入~




狗熊会
狗熊会,统计学第二课堂!传播统计学知识,培养统计学人才,推动统计学在产业中的应用!
 最新文章