张雨琦,中央财经大学统计与数学学院应用统计专业在读硕士,师从杨玥含教授。主要研究方向为迁移学习,相关成果发表在Pattern Recognition期刊上。
今天要跟大家分享的论文是Y. Zhang, Y. Yang, Joint estimation for multisource Gaussian graphical models based on transfer learning, Pattern Recognition, 158 (2025) 110964.
摘要
本研究考虑了来自多个源的高斯图模型数据,其中包括一个目标图和多个辅助图。我们提出了一种称为多源高斯图模型联合估计(JEM-GGM)的方法,以实现对目标图的稳定且准确的估计。通过利用辅助图的信息,所提出的方法有效地解决了小样本问题。在该方法中,为图构建了等效的回归模型,并对辅助图和目标图之间的差异进行惩罚,以确保计算效率并提高估计精度。模拟结果表明,所提出的方法在估计和预测精度方面始终优于其他方法。将该方法应用于乳腺癌和淋巴癌细胞系时,所提出的方法总能得到重要基因对的稀疏集合。
关键词:迁移学习;多源数据;高斯图模型;惩罚回归
1.引言
在实际应用中,样本不足的问题经常出现,带来了诸多挑战。例如,虽然成骨性癌症仅占乳腺癌病例的0.5%,但其5年生存率最低,仅为55%-60%(Takala等,2019)。相比之下,导管原位癌(DCIS)占乳腺癌病例的23%,其5年生存率为97%-100%(Min等,2013)。如果我们能从DCIS中获得的见解推广至成骨性癌症的治疗,可能会带来重大益处。尽管样本不足问题与数据不平衡问题有相似之处,但它们存在细微的区别。数据不平衡通常出现在某些类别样本不足的分类问题中,导致模型经常将样本归为多数类别(Solea和Li,2020)。相比之下,我们的关注点在于样本不足的问题,即目标数据源缺乏足够的样本。然而,辅助数据源可以提供额外数据。例如,在不同种族群体的教育成就预测研究中,“白人男性”的样本量大约是“美洲印第安人和阿拉斯加土著女性”样本量的200倍(Viallon等,2016)。从白人男性样本中提取出影响教育成就的通用机制,可能对小样本群体的研究大有裨益。迁移学习作为一种有用的机器学习技术,适用于这种情况,并在近年来得到了广泛关注。
在实际中,我们通常从多个但相关的领域收集数据,这被称为多源数据。在上述两个例子中,成骨性癌症患者和导管原位癌(DCIC)患者代表了两个数据源。同样,“白人男性”和“美洲印第安爱斯基摩女性”也是两个数据源。在迁移学习中,来自多个源的数据结构的相似性被用来将辅助数据集的信息转移到目标数据上,以提高预测精度,特别是对于小样本高维数据集(Lu等,2015;Pan和Yang,2010)。这一技术在多个领域得到了广泛应用。例如,在金融领域,Luis等(2010)提出了一种归纳迁移学习方法,构建了多个贝叶斯网络结构,并测试了汽车保险风险评估系统。在生物学领域,Caruana(1997)将迁移学习应用于人工神经网络,并提出了一种肺炎风险预测方法。Oyen和Lane(2015)提出了现有的贝叶斯网络迁移学习方法可能存在忽略其他网络的局限性,进而提出了一种用于全脑成像的多贝叶斯网络模型。Koçer和Arslan(2010)将迁移学习应用于遗传学,以提高遗传算法的准确性。在回归模型下,Gao和Yang(2023)将目标数据和辅助数据结合到L1惩罚项中,并提出了一种称为从层次转移的联合估计方法(JETS)。在图模型下,Li等(2022)提出了一种称为Trans-CLIME的迁移学习算法,与传统的估计方法相比,该算法显著减少了预测误差。一些研究解决了小样本问题。Shang等(2024)将迁移学习应用于广义线性模型参数的估计,用于小样本下的实时剖面监控。Wang等(2024)提出了一种基于注意力可解释表格学习神经网络的算法,该算法是一种嵌入式多分类算法,适用于高维小样本分类,特别适用于光谱和药物化学成分分析。
随着信息技术的进步,数据量激增,准确确定图节点之间的相关性在各个领域变得至关重要。在众多旨在理解这些相关性的方法中,高斯图模型作为一种强大的数据分析工具脱颖而出(Dobra和Lenkoski,2011;Kalyagin等,2019)。这种模型通常通过恢复图结构的各种技术进行估计(Yuan和Lin,2007;Draisma等,2013)。
高维环境下的高斯图模型分析已得到了广泛研究。Yuan和Lin(2007)以及Banerjee等(2008)提出了使用lasso惩罚对图模型的对数似然进行估计。Friedman等(2008)和Mazumder与Hastie(2012)开发了Glasso算法来计算上述惩罚后的对数似然估计。此外,Fan等(2009)和Lam与Fan(2009)使用SCAD惩罚来减少网络估计中的偏差问题,并估计稀疏协方差矩阵和稀疏精度矩阵。Solea和Li(2020)通过引入功能性copula高斯图模型,去除了功能性图模型中的边缘高斯假设。Lv和Zhang(2021)提出了一种稀疏矩阵估计方法,称为逆矩阵估计的约束L1最小化(CLIME),并设计了一种贪婪逆尺度空间流算法来解决此问题。
尽管在图模型领域已有大量研究,但将迁移学习应用于高斯图模型以解决小样本问题仍需进一步探讨。据我们所知,基于迁移学习的图模型研究仍然有限。Li等(2022)通过惩罚似然将迁移学习应用于图模型,提出了一种称为Trans-CLIME的算法,用于通过辅助模型信息估计目标高斯图模型。在该算法中,辅助信息被引入目标CLIME算法,并结合去极化方法,有效降低了预测误差。然而,估计高斯图模型在高维环境中具有较高的计算成本,运行Trans-CLIME算法需要大量计算资源。
为了解决这些问题,本文将迁移学习引入高斯图模型领域。为简化计算复杂度并保持准确性,我们为目标图和辅助图建立了一系列回归模型。本研究具有以下优势:
所提出的方法将来自多个辅助数据集的信息纳入目标数据集中,能有效解决小样本问题,并提高目标数据的预测精度。我们引入了一种新的方法,称为多源高斯图模型联合估计(JEM-GGM),以填补这一研究空白,并提供其合理性的理论保障。
我们分析了从不同来源收集的数据集,以恢复目标数据的图模型结构。为有效实现这一目标,JEM-GGM通过一系列回归模型构建,这显著降低了计算成本。我们为多个来源的数据集构建了多个模型,并提出了一个联合函数来同时解决它们。还导出了一个数据转换函数,通过求解单一的惩罚优化,确保了计算效率。
我们为所提出的估计方法提供了理论保障,包括选择一致性和Frobenius范数下估计的收敛速度。此外,我们在不同数据设置下进行了综合模拟,并将我们的方法与若干现有方法进行了比较,包括那些利用迁移学习和不使用迁移学习的传统方法。通过真实正率、假正率和Frobenius范数等指标,展示了我们方法的优势。此外,我们将所提出的方法应用于癌症细胞系问题,并分析了乳腺癌,得出了有意义的发现。
本文的其余部分组织如下:第2部分介绍了模型和所提出的方法。第3部分介绍了理论性质。在第4部分中讨论了模拟研究结果,并将所提出的方法与几种现有方法进行了比较。第5部分讨论了经验分析结果。此外,详细介绍了将所提出的方法应用于癌症细胞系基因数据的情况,并将结果与估计结果进行了比较。最后,第6部分总结了研究内容。技术细节见附录。
2.模型和方法
2.1基于迁移学习的图模型
在本节中,我们介绍所研究的高斯图模型。假设所有个高斯图模型都有个变量,这些变量遵循多元高斯分布,如下所示:
其中为的正定协方差矩阵。我们的目标是估计浓度矩阵。浓度矩阵的结构可以用无向图来表示,其中,是与随机变量对应的节点集合。如果任意两个变量在其他变量条件下是相互独立的,则节点和不相连,即;如果这两个变量在条件下相互依赖,则节点相连,即。
在本文中,我们假设有个图,每个图有相同的个变量和个观测值,其中且。我们关注第个图,表示其对应的观测数。其余的图是辅助图,可以用于为目标图获取有用的信息。然而,如果同时对个图进行建模则会导致计算成本较高。为了减少计算成本并利用所有可用信息来估计图结构,我们对每个图进行回归建模。在这些模型中,每个变量依次成为回归模型的响应变量,其他变量则为解释变量。假设是第个图的第个变量向量,是第个图的其他变量矩阵。我们为目标图建立回归模型,即对于,
其中,为残差向量。是维向量。我们将(1)重新写为如下形式:
其中,表示一个维向量,。该回归模型描述了图中每对节点之间的条件相关性。如Bühlmann和VanDeGeer(2011)第13章所述,回归系数与浓度矩阵元素之间的相关性可以表示成下式:
因此,我们可以得到以下等式:
这个等价关系表明,如果或等于零,则节点和是条件独立的;否则,节点是条件相关的。这一要求限制了边的数量。然而,它允许每个回归模型的向量中有大量的非零项。因为与和相关,目标回归模型的估计结果只能确定是否成立,也就是说,是否任意两个变量存在条件相关性。
对于辅助图,我们同样建立回归模型,即当时,模型如下:
上述回归模型是为其余个辅助图建立的,且的回归系数在某种程度上与目标模型的回归系数相似。在这种情况下,我们可以使用其他个图来对目标图进行建模。我们假设表示两个模型回归系数之间的差异,即:
然后,我们优化以下表达式来求解,
上述优化问题中的第一项表示目标回归模型的残差平方和,第二项表示其余个回归模型的残差平方和,最后两项是对目标回归模型系数和系数差异的惩罚项。这里,是调优参数。该优化问题促进了和的稀疏性。惩罚项的具体形式将在下一节中详细讨论。
令为通过公式(3)得到的的非零索引集,即。对于具有边集的条件独立图,浓度矩阵通过以下最大似然法进行估计:
其中,可以由如下表示:
其中,表示样本协方差,表示的约束集。我们要求。因此,最大似然估计是存在且唯一的(Uhleretal.,2013)。
本研究专注于将多个辅助图的信息合并,以对目标图进行建模。在多源数据中,通常存在可以从辅助数据源中学习的潜在共享特征和模式。通过估计差异并用替代,我们能够得到共同点。从辅助数据源中估计可以提高对有限目标数据的估计精度。这一策略使我们能够通过整合多个领域的知识,学习到更丰富和多样化的表征。
在本文中,我们使用原始Lasso作为惩罚项,定义为和。在原始Lasso中,每个图的预测变量以相等的权重受到惩罚。该惩罚在预测中是稳健的,并且具有较低的计算成本。自适应Lasso在高斯图模型的背景下也得到了广泛研究。惩罚项可以纳入自适应权重,以解决原始Lasso的偏差。我们还建议使用两种类型的加权惩罚:加权自适应Lasso和半加权自适应Lasso。前者为所有图中的每个预测变量定义特定权重,而后者仅对目标数据应用不同权重。许多其他约束在未来值得研究,例如纳入拉普拉斯惩罚(Ying等,2021)或多阶段估计技术(Ying等,2023)。
2.2计算
在本节中,我们使用原始Lasso惩罚,通过提供优化函数(3)的计算结果来展示所提出的估计量。在本文的其余部分,我们将把所有图的图建模中的Lasso惩罚视为一个案例研究。
命题1
所提出方法的解是唯一的,并且可以计算为以下Lasso问题:
其中,(见方程(6))。
其中,。
在命题1中,是要顾及的参数。表示目标图的变量(节点),分别表示第个辅助图变量(节点),表示目标图的样本量,和分别表示第个辅助图的样本量。和是调优参数。是第个目标模型的维回归系数向量,表示第个目标模型和第个辅助模型的回归系数之间的差异。
通过命题1,所提出方法的解可以通过求解Lasso惩罚正则化函数来计算。根据Lasso解的唯一性(Tibshirani(2013)的引理2),我们知道如果,其中是等相关集(估计集),则Lasso解是唯一的。若存在某个使得,则该要求不成立。根据模型假设(1)和(2),这种等价关系不会发生。因此,遵循Lasso解的唯一性,所提出方法的解也是唯一的。
上述结果证明了所提出估计量的唯一性,并揭示了在两个惩罚项都使用惩罚时,该方法展现了Lasso正则化的计算优势。相比于其他版本的惩罚项(如加权自适应Lasso和半加权自适应Lasso),原始Lasso仅使用惩罚,并且不需要初始估计来获取自适应权重,从而最大限度地降低了计算成本。通过应用上述数据转换函数并将原始Lasso惩罚替换为其他惩罚形式,其他具体形式也适用于所提出的方法。我们在算法1中提供了所提出方法的执行过程。
3.理论推导
在本节中,我们为所提出的方法在多源数据下提供理论保障。考虑以下维度符号:,其中是一个正数。此外表示第个图(即目标图)的无向边的真实集合。对于目标图,集合是与第个变量条件相关的变量索引集合,并且,其中。最后是得到的估计值。现在我们展示所提出方法的理论结果。
理论1
假设对于某个正数和,以下不等式成立:
令,其中,。假设,在概率为的情况下,有。
证明在附录中给出。基于定理1,我们证明了筛选技术使可行解集合以较高概率收敛到真实集。基于定理1,所提出方法与不使用迁移学习的传统线性模型的主要区别在于收敛速度。通过利用多个来源的组合样本量,我们的估计收敛得更快,而传统方法仅依赖于目标数据的样本量。该结果在条件(8)下成立,即受限特征值条件——这是惩罚正则化中常见的条件(Gao和Yang,2023; Yang和Zhu,2020)。该条件针对多源数据进行了调整,确保辅助数据有助于目标图的估计。因此,所提出的方法相比仅基于目标数据的模型表现出更高的概率。
理论2
遵循定理1的要求,假设。在概率为的情况下,我们有以下对估计的界限:
式中,表示弗罗贝尼乌斯范数,为正数。
在上述结果中,我们为估计指定了一个上界。该结果基于定理1得出,因此具有相同的收敛概率。对于任何估计量,该上界都无法减弱;这一事实是高斯图模型中迁移学习的Frobenius范数误差上界的最小最大速率的结果(Lietal.,2022;Stokelletal.,2021)。这两个理论结果,包括模型选择的一致性和Frobenius范数,在传统方法中是常规的。然而,在许多实际问题中,目标数据通常会面临样本不足的问题。我们考虑来自多个源的多个图,利用所有可用样本,包括目标图和其他辅助图。理论结果表明,所提出的估计量从所有样本中受益,并收敛到目标图的真实模型,即。
4.模拟
在本节中,我们对所提出的方法与现有方法进行比较,即CLIME(Lv和Zhang,2021)、邻域选择(Meinshausen和Bühlmann,2006)、SCAD(Lam和Fan,2009)以及Trans-CLIME(Lietal.,2022)。在邻域选择中,Lasso惩罚应用于个回归模型;因此我们以下将其称为Lasso。我们考虑两种类型的Lasso模型:Indep-lasso和Pool-lasso。在Indep-lasso模型中,仅考虑目标观察组,而在Pool-lasso模型中,则考虑所有观察组。SCAD和CLIME基于图模型,均仅考虑目标观察组。为了降低计算成本,这两种方法专注于建模目标组。我们使用R中的glmnet包来实现所提出的方法、Indep-lasso和Pool-lasso。此外,使用Glasso和flare包来实现SCAD和CLIME。每次模拟重复100次。
我们考虑四个示例,涉及1个目标图和1个辅助图,共有个图。目标图包含个观测值,辅助图有个观测值。这两个图的维度相同,设置。这两个示例的具体情况如下:
示例1:
目标图的样本取自,其中,并且,其余项为0。非目标图的样本取自,其中,并且, , ,其余项为0。
示例2:
目标图的样本取自,其中,的对角元素为0,每个非对角元素为0或0.5,其概率分别为和。令,选择使得的条件数接近于。同样,非目标图的样本取自,其中,和与前述情况相同,。将和标准化,使其具有单位对角线。
示例3:
目标图的样本取自,其中,并且,其余项为0。非目标图的样本取自,其中,并且,其余项为0。
示例4:
目标图的样本取自,其中。非目标图的样本取自,其中。
我们考虑三个指标来评估模拟结果:真正率(TPR)、假正率(FPR)和Frobenius范数(FN):
图1显示了前三个示例的ROC曲线,省略了考虑对角浓度矩阵的示例4。图1中不同颜色的曲线代表在特定示例下,不同方法模拟的数据集的真正率(TPR)和假正率(FPR)结果。所提出的方法表现优越,曲线始终向左上角移动。在示例1中,当时,所提出的方法和Pool-lasso都优于其他模型。在示例2中,当时也得到了类似的结果。当示例2中时,尽管所有方法的性能都不尽如人意,但所提出的方法表现得更好。在示例3中,所有方法的模拟结果均优于示例2,其中所提出的方法在两个维度上表现最佳。图2显示了四个示例的Frobenius范数(FN)。所提出的方法始终表现最好。在示例1中,当时,所提出方法的FN为2.76,比其他结果低超过10%。当时,尽管所有方法的FN增加,但所提出方法的FN降低了超过20%。在示例2中,当时,所提出方法的FN约减少了5%。当时,尽管所有方法的FN都很高,但所提出方法的Frobenius范数仍然较低。在示例3中,当时,所提出方法的FN最小,与Indep-lasso、Pool-lasso和CLIME方法的FN相似。当时,尽管所有方法的FN大约翻倍,但所提出的方法表现显著优于其他方法。在示例4中,所有方法的FN值较小,当时,所提出的方法也优于其他方法。该方法在所有示例中表现稳定。
我们还比较了不同方法的计算成本。每种方法的运行时间取为100次模拟的平均时间,结果如表1所示。当时,所提出方法的计算成本高于Indep-lasso和SCAD,这是可以预期的,因为这两种方法仅考虑目标观察组。然而,所提出的方法比Pool-lasso快15%–30%,比CLIME快20%–40%,比Trans-CLIME快70%–80%。当时,Trans-CLIME运行100次耗时过长,结果标记为NA。在这种情况下,所提出的方法比Pool-lasso快40%–70%,比CLIME快60%–90%。
图1:在前三个示例和两个维度下(),五种方法(JEM-GGM、Indep-lasso、Pool-lasso、SCAD、CLIME和Trans-CLIME)的ROC曲线比较。
图2:六种方法(JEM-GGM、Indep-lasso、Pool-lasso、SCAD、CLIME和Trans-CLIME)在四个示例和两个维度()下的Frobenius范数误差的箱线图比较。
表1:平均运行时间比较(以秒为单位)
5.实证分析
在本节中,我们讨论所提出的方法在癌症细胞系百科全书中的应用,该数据集包含18,988个基因和1,037个癌症细胞系,以及细胞系对抗癌药物的反应。癌症细胞系数据和抗癌药物反应数据可以在以下链接找到:https://depmap.org/portal/download/all。我们使用乳腺癌细胞系数据作为目标图,淋巴癌细胞系数据作为辅助图,以研究细胞系中的基因表达及基因之间的相关性。乳腺癌和淋巴癌细胞系数据分别有29个和71个样本。
由于细胞系中的基因数量庞大,为了降低计算成本,我们首先对基因进行筛选。具体而言,我们使用抗癌药物AEW541在细胞系中的活性区域(ActArea)作为依赖响应和,将乳腺癌和淋巴癌细胞系中的基因表达作为预测变量和。我们计算基因在乳腺癌和淋巴癌细胞系中对抗癌药物的响应程度,分别表示为和,并表示如下:
我们将和从大到小排序,分别保留的前个基因和的前个基因。这两个基因组的交集是对抗癌药物反应强烈的基因集合。我们选择了在乳腺癌和淋巴癌细胞系中对抗癌药物具有强反应的107个基因。
我们首先应用所提出的方法JEM-GGM来建立高斯图模型,并通过基因的度和出现频率来判断基因的重要性。我们识别出通过一系列调节参数值(范围从0.01到0.15)估计的基因对,选择从模型中识别出的基因对,并计算基因的度。图3显示了所有基因对及其出现频率。其中,基因MAT2B、PPP1R10和SGPL1的度最高,而基因PCTP、CARS2、MRPL24、TBRG4和SPATA2的度排名第二。
这些基因都是编码蛋白质的基因。例如,MAT2B催化由蛋氨酸合成S-腺苷甲硫氨酸。PPP1R10编码一个结合蛋白磷酸酶1,在许多细胞过程中发挥关键作用,包括细胞周期进程、DNA修复和细胞凋亡,通过调节该蛋白的活性。SGPL1参与凋亡信号通路、脂肪酸代谢过程和鞘脂代谢过程。PCTP促进磷脂酰胆碱的结合和磷脂酰胆碱转运活动。CARS2通过将对应的氨基酸加载到tRNA上,在蛋白质合成中发挥关键作用。MRPL24有助于线粒体内的蛋白质合成。TBRG4参与线粒体mRNA的加工和调节线粒体mRNA的稳定性。SPATA2促进信号受体的复杂适配器活性和与泛素特异性蛋白酶的结合活性。遗传信息来自国家生物技术信息中心的RefSeq数据库和基因组资源联盟。
由于所提出的方法获得的活动集会随着调节参数值的变化而变化,我们考虑调节参数范围从0.01到0.15内的21个值,并将选定的基因对分为三类。类别如下所示于图3中:(1)第一类包括使用少于1/3调节参数范围选择的基因对。(2)第二类包括使用超过1/3但少于2/3调节参数范围选择的基因对。(3)第三类包括使用超过2/3调节参数范围选择的基因对。这三种类型的基因对在图3中通过颜色从浅到深变化的线条表示。
如图3所示,与蓝色和紫色基因相关的线条颜色较深。这意味着具有更高度的基因倾向于出现在第三类基因对中,即使用超过2/3调节参数范围选择的基因对。使用较高调节参数范围选择的基因对往往具有更高的度数。这一等价关系对于信息传递至关重要,并在整体网络图中具有重要意义。我们在整个图中突出显示第三类基因对,如图4所示。所有突出显示的基因对代表图中的关键连接。
我们还应用其他方法,具体而言是Indep-lasso和Trans-CLIME,来选择基因对并比较它们之间的差异。由于空间限制,我们仅展示了Trans-CLIME选择的基因对网络图,见图6和图7,这些图包含在附录中。Trans-CLIME选择的度数最高的基因是TMPRSS11D和C3AR1,这些基因与所提出方法选择的基因密切相关。具体而言,所提出方法选择的TMPRSS11D和PPP1R10基因均可调节蛋白质活性。同样,C3AR1基因和所提出方法选择的SGPL1基因在免疫和炎症调节中也发挥重要作用。
此外,我们比较了所提出方法、Indep-lasso和Trans-CLIME选择的基因对的稀疏性,如模拟中所定义的。图5展示了使用一系列调节参数值由三种方法选择的基因对数量的直方图。该图显示,对于相同的调节参数值,所提出的方法始终实现了比Indep-lasso和Trans-CLIME更稀疏和更简单的图结构。
图3:JEM-GGM选择的基因对网络图。蓝色和紫色点分别表示与其他节点连接边数量最多和第二多的基因。基因名称列在表中。线条表示选择频率:最浅的表示少于1/3,较深的表示超过1/3但少于2/3,最深的表示超过2/3的调节参数范围。
图4:使用超过2/3调节参数范围选择的JEM-GGM基因对网络图。蓝色和紫色点分别表示与其他节点连接边数量最多和第二多的基因。基因名称列在表中。线条表示选择频率:最浅的表示少于1/3,较深的表示超过1/3但少于2/3,最深的表示超过2/3的调节参数范围。
图5:所提出的方法、Indep-lasso和Trans-CLIME选择的基因对数量比较
6.总结
在本研究中,我们聚焦于涉及一个目标图和若干辅助图的多源高斯图模型问题。辅助图可以帮助建模目标图并获得高精度的估计和预测。我们为该问题建立了框架,并提出了一种高效的方法:JEM-GGM。所提出的估计量在计算效率和建模精度上均表现出色,并且详细说明了理论保障。模拟结果显示,基于迁移学习的高斯图模型在各个方面都取得了最佳性能,优于现有方法。在实证分析中,我们将所提出的方法应用于癌症细胞系百科全书,揭示了该方法能够获得更小的基因对集合,其中包含最重要的基因对。
关于该方法的应用领域,它非常适合于涉及多源图之间相似性的场景,例如股票市场分析(Li和Yang,2022)和基因组研究(Chen和Yang,2023)。例如,在生物医学研究中,我们提出的方法可以促进不同实验室或研究中心之间基因组数据的整合。这种整合提升了分析不同人群中基因表达模式的预测精度,并有助于理解基因组变异对疾病风险的影响。
然而,所提出的方法仍然存在一些值得在未来研究中探讨的局限性。具体而言,所提出的方法在多源图模型之间高度相似的场景中特别有效。然而,当相似性较低时,其有效性会减弱。未来的研究将专注于在图之间仅存在部分相似性的情况下,准确估计目标图。从方法论的角度来看,我们计划在未来探索更多的惩罚形式。这些惩罚形式的理论属性也具有挑战性。识别最佳子集仍然至关重要。解决这一挑战的一个潜在替代方法是使用p值和预先设定的FDR阈值,我们将在未来的研究中进一步探讨。
参考文献
[1] S. Takala, P. Heikkilä, H. Nevanlinna, C. Blomqvist, J. Mattson, Metaplastic carcinoma of the breast: prognosis and response to systemic treatment in metastatic disease, Breast J. 25 (3) (2019) 418–424.
[2] Y. Min, S.Y. Bae, H.-C. Lee, J.H. Lee, M. Kim, J. Kim, S.K. Lee, W.H. Kil, S.W. Kim, J.E. Lee, et al., Tubular carcinoma of the breast: clinicopathologic features and survival outcome compared with ductal carcinoma in situ, J. Breast Cancer 16 (4) (2013) 404–409.
[3] E. Solea, B. Li, Copula Gaussian graphical models for functional data, J. Amer. Statist. Assoc. 117 (538) (2020) 781–793.
[4] V. Viallon, S. Lambert-Lacroix, H. Hoefling, F. Picard, On the robustness of the generalized fused lasso to prior specifications, Stat. Comput. 26 (1–2) (2016) 285–301.
[5] J. Lu, T.T. Cai, H. Li, Transfer learning using computational intelligence: A survey, Knowl.-Based Syst. 80 (2015) 14–23.
[6] S. Pan, Q. Yang, A survey on transfer learning, IEEE Trans. Knowl. Data Eng. 22 (10) (2010) 1345–1359.
[7] R. Luis, L. Sucar, E. Morales, Inductive transfer for learning Bayesian networks, Mach. Learn. 79 (1–2) (2010) 227–255.
[8] R. Caruana, Multitask learning, Mach. Learn. 28 (1997) 41–75.
[9] D. Oyen, T. Lane, Transfer learning for Bayesian discovery of multiple Bayesian networks, Knowl. Inf. Syst. 43 (1) (2015) 1–28.
[10] B. Koçer, A. Arslan, Genetic transfer learning, Expert Syst. Appl. 37 (10) (2010) 6997–7002.
[11] Y. Gao, Y. Yang, Transfer learning on stratified data: joint estimation transferred from strata, Pattern Recognit. 140 (2023) 109535.
[12] S. Li, T.T. Cai, H. Li, Transfer learning in large-scale Gaussian graphical models with false discovery rate control, J. Amer. Statist. Assoc. 00 (2022) 1–13.
[13] Y. Shang, C. Lu, L. Li, S. He, Self-starting monitoring schemes for small-sample poisson profiles based on transfer learning, Comput. Ind. Eng. 192 (2024).
[14] Y. Wang, C. Jin, L. Ma, X. Liu, A robust TabNet-based multi-classification algorithm for infrared spectral data of Chinese herbal medicine with high-dimensional small samples, J. Pharm. Biomed. Anal. 242 (2024).
[15] A. Dobra, A. Lenkoski, Coupula Gaussian graphical models and their application to modeling functional disability data, Ann. Appl. Stat. 5 (2A) (2011) 969–993.
[16] V. Kalyagin, A. Koldanov, P. Koldanov, P. Pardalos, Loss function, unbiasedness, and optimality of Gaussian graphical model selection, J. Statist. Plann. Inference 201 (2019) 32–39.
[17] M. Yuan, Y. Lin, Model selection and estimation in the Gaussian graphical model, Biometrika 94 (1) (2007) 19–35.
[18] J. Draisma, S. Sullivant, K. Talaska, Positivity for Gaussian graphical models, Adv. in Appl. Math. 50 (5) (2013) 661–674.
[19] O. Banerjee, L.E. Ghaoui, A. d’Aspremont, Model selection through sparse maximum likelihood estimation for multivariate gaussian or binary data, J. Mach. Learn. Res. 9 (2008) 485–516.
[20] J. Friedman, T. Hastie, R. Tibshirani, Sparse inverse covariance estimation with the graphical lasso, Biostatistics 9 (3) (2008) 432–441.
[21] R. Mazumder, T. Hastie, The graphical lasso: New insights and alternatives, Electron. J. Stat. 6 (2012) 2125–2149.
[22] J. Fan, Y. Feng, Y.C. Wu, Network exploration via the adaptive lasso and scad penalties, Ann. Appl. Stat. 1 (3) (2009) 521–541.
[23] C. Lam, J. Fan, Sparsistency and rates of convergence in large covariance matrix estimation, Ann. Statist. 37 (6B) (2009) 42–54.
[24] D. Lv, X. Zhang, A greedy algorithm for sparse precision matrix approximation, J. Comput. Math. 39 (5) (2021) 655–669.
[25] P. Bühlmann, S. Van De Geer, Statistics for High-Dimensional Data: Methods, Theory and Applications, Springer Science & Business Media, 2011.
[26] C. Uhler, G. Raskutti, P. Bühlmann, B. Yu, Geometry of the faithfulness assumption in causal inference, Ann. Statist. 41 (2) (2013) 436–463.
[27] J. Ying, J.V. de Miranda Cardoso, D. Palomar, Minimax estimation of Laplacian constrained precision matrices, in: International Conference on Artificial Intelligence and Statistics, PMLR, 2021, pp. 3736–3744.
[28] J. Ying, J.V.D.M. Cardoso, D.P. Palomar, Adaptive estimation of graphical models under total positivity, in: International Conference on Machine Learning, PMLR, 2023, pp. 40054–40074.
[29] R.J. Tibshirani, The lasso problem and uniqueness, Electron. J. Stat. 7 (2013) 1456–1490.
[30] Y. Yang, J. Zhu, A two-step method for estimating high-dimensional Gaussian graphical models, Sci. China Math. 63 (6) (2020) 1203–1218.
[31] B.G. Stokell, R.D. Shah, R.J. Tibshirani, Modelling high-dimensional categorical data using nonconvex fusion penalties, J. R. Stat. Soc. Ser. B Stat. Methodol. 83 (3) (2021) 579–611.
[32] N. Meinshausen, P. Bühlmann, High-dimensional graphs and variable selection with the lasso, Ann. Statist. 34 (3) (2006) 1436–1462.
[33] B. Li, Y. Yang, Undirected and directed network analysis of the chinese stock market, Comput. Econ. 60 (1) (2022) 1155–1173.
[34] X. Chen, Y. Yang, Local linear approximation with Laplacian smoothing penalty and application in biology, Stat. Methods Med. Res. 32 (6) (2023) 1145–1158.
[35] P.J. Bickel, E. Levina, Regularized estimation of large covariance matrices, Ann. Statist. 36 (1) (2008) 199–227.
[36] A.J. Rothman, P.J. Bickel, E. Levina, J. Zhu, Sparse permutation invariant covariance estimation, Electron. J. Stat. 2 (2008) 494–515.
[37] M.J. Wainwright, High-Dimensional Statistics: A Non-Asymptotic Viewpoint, Cambridge University Press, 2019.
[38] S.H. Zhou, P. Rütimann, M. Xu, P. Bühlmann, High-dimensional covariance estimation based on Gaussian graphical models, J. Mach. Learn. Res. 12 (2011) 2975–3026.