随着高通量测序和多组学的快速发展,无论是基因组学、表观组学、转录组学、宏基因组学还是蛋白质组学、代谢组学,都已经积累了非常庞大的数据,数据的大量增加需要有更快的信息数据处理速度才能更好的对海量的组学数据进行深度挖掘,然而传统的信息数据处理算法显然不能满足大数据的处理要求,机器学习作为可以从数据中进行学习的算法,在组学数据分析和挖掘,如对疾病亚型识别、 生物标志物发现、通路分析以及药物发现及其再利用有着更广泛的前景和应用空间,当然国自热热点对于大量队列样本机器学习和建模是避不开的话题,今天和大家分享机器学习的入门及在多组学中的应用。
我们已经看到,在过去的十年里,企业利用数据来优化业务的程度急剧增加。大数据被称为大数据或数据科学革命,其特征是海量数据,包括非结构化和非传统数据,比如文本和图像,以及在分析中使用快速和灵活的机器学习Machine Learning (ML)算法。
随着深度神经网络Deep Neural Networks(DNNs)和相关方法的改进,高性能ML算法应用在不同的数据场景中变得更加自动化和稳定化。这也使得人工智能(AI)的迅速崛起[1]。
要了解机器学习Machine Learning (ML),我们还是要知道人工智能(AI)、深度学习
和机器学习之间的关系。粗略来讲,人工智能的概念是最大的,机器学习是其的一个分支学科,而深度学习又是机器学习的一个分支[2]。
人工智能、机器学习和深度学习的关系
在最广的意义上,人工智能是“让智能体(Agent)在复杂环境下达成目标的能力”[3-4],机器学习(Machine Learning)是人工智能的一个分支学科,是实现人工智能的一种方法,通常是使用算法来解析数据,从数据中进一步学习,然后对真实世界中的事件做出决策和预测。和传统的为解决特定任务而专门进行编程的思路不同,机器学习“让计算机拥有在没有明确编程的条件下拥有学习的能力”,并通过对大量数据的学习找出完成任务的方法。根据学习的特征,机器学习可以分为三类:有监督学习(Supervised Learning)、无监督学习(Unsupervised earning)和强化学习(Reinforcement Learning)[5-6]
有监督学习的算法主要有两类,一类是回归(Regression)算法,另一类是分类(Classification)算法。
无监督学习所面对的数据样本则是没有标识的,其任务在于通过学习这些数据,从而找出数据中隐藏的潜在规律,聚类(Clustering)算法是进行无监督学习的主要算法。
强化学习是在动态环境中进行的学习,通过不断试错,从而使得奖励信号最大化。近年来备受关注的深度学习(Deep Learning)是机器学习的一个研究分支。它利用多层神经网络进行学习,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征[7-8] 。
在传统的条件下,由于可供学习的数据过少,深度学习很容易产生“过度拟合”等问题,因而影响其效果。但随着大数据的兴起,深度学习的力量就开始体现出来。近年来人工技术的迅速发展,很大程度上是由深度学习的发展推动的[2] 。
统计学关注的问题有四个:预测、总结、估计(Estimation)及假设检验。相比于统计学,机器学习是一门更具应用性的学科;它所关注的问题更多是推断,而不是对因果关系的探究。因为这个原因,决策树(Decision Tree)、支持向量机(SVM)等分类模型,以及岭回归(Ridge Regression)、套索算法(LASSO)等,都在机器学习中被大量使用[2]。
斯坦福大学教授Athey[10]在Science上发文讨论了机器学习在因果推断和政策评估中的作用。作者指出:过去更多被用于预测的机器学习未来会在因果推断领域有很强的应用前景。
机器学习在因果推断中的第一个应用是用来取代常规方法中一些不涉及因果关系的步骤。例如,在因果推断分析中,倾向性得分匹配法(Propensity Score Matching)是经常被用到的。使用这一方法的第一步是要依赖于核估计等方法计算出倾向性得分,而这些估计在协变量众多的情况下是难以进行的。为了在众多的协变量中筛选出有用的部分,一些研究者就提出了将LASSO、Booting、随机森林等常用于机器学习的算法应用到协变量筛选的过程中,然后再用得到的结果按照传统的步骤进行匹配[11-12]
机器学习在因果推断中的第二个应用是对异质性处理效应的估计。过去的因果关系推断,主要是在平均意义上展开的,其关注的焦点是平均处理效应(Average Treatment Effect,简称ATE)。这样的分析固然有重要的价值,但在不少情况下它并不能满足实际应用的需要。例如,当医生决定是否要对一位癌症病人采用某项疗法时,如果他仅知道平均来看这种疗法可以让病人的存活时间增加一年,这显然是不够的。由于同一疗法对不同病人的效果区别很大,因而在决定是否采用该疗法时,医生就需要进一步知道不同特质的病人在采用这种疗法时会有怎样的症状。换言之,除了ATE外,他还需要关注异质性的处理效应(Heterogeneous Treatment Effect)。
而针对异质性的处理效应(Heterogeneous Treatment Effect),Athey和Imbens[13]将机器学习中常用的分类回归树(Classificationand Regression Trees)引入到了传统的因果识别框架中,用它们来考察异质性处理效应。他们比较了四种不同的分类回归树算:单树法(Single Tree)、双树法(Two Trees)、转化结果树法(Transformed Outcomes Tree)及因果树法(Causal Tree),并特别强调了因果树法的作用。同样Wager和Athey[14]推广了因果树方法,讨论了如何用随机森林(Random Forest)来处理异质性处理效应。Hill[15]、Green和Kern[16]则采用了另一种思路贝叶斯可加性回归树(Bayesian Additive Regression Tree,简称BART来考察异质性处理效应,这种方法在某种意义上可以被视为是贝叶斯版的随机森林方法。不过,BART方法的大样本性质目前仍然是不清楚的,因而其应用还存在着一定的局限。
机器学习属于多个领域交叉的学科,包含统计学、算法和概率学等,最主要的目的就是在大规模数据中,通过机器学习可以在异构数据中进行规律总结,并找到不同数据之间的深层次的联系,从而实现对数据的更深一层次的利用和深入挖掘。机器学习的主要任务包括以下几个方面:(1)对不同的数据进行分类(2)对数据进行回归分析(3)通过模型建构完成对数据的回归分析(4)对数据进行关联规则(5)将不同的数据集合到一起实现聚类[18] 。
机器学习系统结构图
LIST 等人[19]总结发现TCGA数据库为患者提供了基因表达数据,但是从大量基因中提取具有预后良好的最小优化的基因集比较难,作者应用机器学习算法来解决基因选择的问题。作者假设,甲基化和基因表达数据的结合可能导致很大程度分类模型的改变,最终导致模型将反映不仅在转录组上,而是在表观遗传水平上的差异。作者结合甲基化和基因表达数据构建分类模型,对乳腺癌亚型进行分类,将其与基于金标准PAM50 的模型进行比较,得到了bootstrap误差为10-20%,分类误差为1-50%的分类模型。
TAKAHASHI等人[20] 开发了一种利用多组学数据准确预测肺癌患者生存的新方法。
主要利用无监督学习技术,通过癌症基因组图谱(TCGA)中的6个类别的多组学数据集,首次检测出非小细胞肺癌中与生存相关的亚型。新的亚型被称为整合生存亚型,明确地将患者分为更长和更短的生存组(log-rank检验:p = 0.003),并确认这与组织病理分类无关(独立性卡方检验:p = 0.94)。机器学习模型在反向相蛋白阵列(reverse phase protein array, RPPA)上训练即可准确预测整合生存亚型(AUC = 0.99)。预测的亚型还可以区分高风险和低风险患者(log-rank检验:p = 0.012)。并探索了多组学分析在准确预测肺癌患者预后方面的新潜力。
肺癌患者生存模型研究总体设计示意图
FORTINO等人[21]在接触性皮炎疾病中通过整合转录组分析和机器学习方法,破译与疾病相关的签名基因,以找到合适的生物标记物。作者通过芯片分析了89例针对四种接触性过敏原和两种刺激物的阳性斑片状试验反应活检,使用共表达网络分析和随机森林分类来发现潜在的生物标志物,并在一个独立的患者组中验证选定的生物标志物模型。
接触性皮炎模型研究设计示意图
XU等人[22]非常详细的从蛋白质生物标志物的发现策略、特征选择与机器学习方法和应用实例、适用范围进行深入总结。
蛋白质生物标志物发现的经典策略[22]
FRIDLEY等人[23] 提出了一个新的整合模型,将多种类型的基因组数据纳入一个复杂表型的分析。该方法将通径分析和随机搜索变量选择结合到贝叶斯层次模型中,同时识别直接和间接的基因对表型的影响。将贝叶斯模型应用于药物吉西他滨的药物基因组研究的结果显示,在某些模拟场景中,对检测基因组效应具有更高的敏感性。该模型可以将通路分析和随机搜索变量选择结合到贝叶斯分层模型中,并同时识别对表型的直接和间接基因组影响。
OH等人[24]提出在分子水平上了解药物的作用有助于药物发现和个性化医疗。虽然已经收集了药物治疗前的转录组数据、药物敏感性的癌细胞多组数据(IC50、AUC)、药物治疗后的转录组数据,但是在药物治疗过程中分析转录组数据具有非常大的挑战性,主要因为超过20,000个基因以复杂的方式相互作用。此外,由于时间序列分析和多组学集成的困难,现有的方法很难对不同数据特征的数据库进行分析。一种有效的方法是根据特征良好的生物学途径来解释转录组数据。另一种方法是利用最先进的方法进行多组数据集成。
OH等人开发了整合多组学和时间序列数据的药物反应分析(Drug Response analysis integration Multi-omics and time-series data, DRIM),这是一个整合的多组学和时间序列数据分析框架,可以识别药物治疗中受干扰的子通路和调控机制,并构建了一个包含转录因子(transcription factor, TFs)、多组学潜在基因(multiomics potential mediator genes)和干扰因子通路(disturbance subpathways)的网络。DRIM:药物反应分析系统(Drug Response Analysis System)通过影响最大化法确定来自TFs的干扰通路等。
药物引起的细胞随时间的表型变化及解释药物反应的DRIM系统[24]
XU等人[25]通过整合多种遗传和表观遗传(基因表达、拷贝数变异和DNA甲基化)改变的组合效应,确定了个体抗癌药物反应的亚途径特征。多组学数据整合分析有助于开展精准医学研究,揭示复杂的生物学机制。
通过整合多组学数据来识别个体化抗癌药物反应预测的通路特征的示意图[25]
[1]Taddy,M.The Technological Elements of Artificial Intelligence[R].NBER Working Paper,2017.
[2]陈永伟.人工智能与经济学:近期文献的一个综述[J].东北财经大学学报,2018,(3):6-21.
[3]Legg,S.,Hunter,M.A Collection of Definitions of Intelligence[A].Goertzel,B.,Wang,P.Advances in Artificial General Intelligence: Concepts, Architectures and Algorithms[C].Virginia: IOS Press,2007.
[4]Russell,S,Norvig,P.Artificial Intelligence: A Modern Approach(Third Edition)[M]London:Pearson,2012
[5]Samuel,A.L.Some Studies in Machine Learning Using the Game of Checkers[J].IBM Journal of Research and Development
,1959,3(2):206-226.
[6]Taddy,M.The Technological Elements of Artificial Intelligence[R].NBER Working Paper,2017.
[7]Lecun,Y,Bengio,Y.Hinton,G.Deep Learning[J]Nature,2015,521(7553):436-444.
[8]Goodfellow,I.,Bengio,Y.Courville,A.Deep Learning[M]Massachusetts :The MIT Press,2016.
[9]Varian,H.Big Data: New Tricks for Econometrics[J]. Journal of Economic Perspectives,2014,28(2):3-27.
[10]Athey,S.Beyond Prediction: Using Big Data for Policy Problems[J].Science,2017,355(6324):483-485.
[11]Lee,B.K.,Lessler,J. ,Stuart,E. A. Improving Propensity Score Weighting Using Machine Learning[J].Statistics in Medicine,2010,29(3):337-346.
[12]Linden,A.Yarnold,P. Combining Machine Learning and Matching Techniques to Improve Causal Inference in Program Evaluation[J]Journal of Evaluation in Clinical Practice,2016,22(6):864-870.
[13]Athey,S. ,Imbens,G. ,Machine Learning Methods for Estimating Heterogeneous Causal Effects [J].Statistics
,2015,113(27):7353-7360.
[14]Wager,S.,Athey,S. Estimation and Inference of Heterogeneous Treatment Effects Using Random Forests[DB/OL].
[15]Hill,J.,Bayesian Nonparametric Modeling for Causal Inference[J].Journal of Computational and Graphical Statistics
,2011,20(1):217-240.
[16]Green,D.P.,Kern,H.L.Modeling Heterogeneous Treatment Effects in Survey Experiments With Bayesian Additive Regression Trees[J]. Public Opinion Quarterly,2012,76(3):491-511.
[17]张绍成,孙时光,曲洋,等.大数据环境下机器学习在数据挖掘中的应用研究[J].辽宁大学学报(自然科学版 ),2017,44(1):15-17.
[18]黄心依.机器学习在数据挖掘中的应用研究[J]信息记录材料 2021年8月 第22卷第8期
[19]LIST M,HAUSCHILD A C,TAN Q,et al.Classification of breast cancer subtypes by combining gene expression and DNA methylation data[J]Journal of integrative bioinformatics,2014,11(2):236.
[20]TAKAHASHI S , ASADA K , TAKASAWA K , et al.Predicting deep learning based multi-omics parallel integration survival subtypes in lung cancer using reverse phase protein array data[J].Biomolecules,2020, 10(10):1460.
[21]FORTINO V , WISGRILL L , WERNER P , et al.Machine-learning-driven biomarker discovery for the discrimination between allergic and irritant contact dermatitis[J].Proceedings of the national academy of sciences, 2020, 117(52):33474-33485.
[22]XU K, HAN M, HUANG C, et al.Research progress of feature selection and machine learning methods for mass spectrometry-based protein biomarker discovery[J].Sheng wu gong cheng xue bao, 2019, 35(9):1619-1632.
[23]FRIDLEY B L, LUND S, JENKINS G D, et al.A Bayesian integrative genomic model for pathway analysis of complex traits.[J].Genet epidemiol,2012(36):352-359.
[24]OH M, PARK S, LEE S, et al.DRIM:a web-based system for investigating drug response at the molecular level by condition-specific multi-omics data integration[J].Front genet,2020(11):564792.
[25]XU Y, DONG Q, LI F, et al.Identifying subpathway signatures for individualized anticancer drug response by integrating multi-omics data[J] .Journal of translational medicine, 2019,17(1):255.
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看