Luo Group Journal Club |机器学习在生物信息学中的应用

文摘   2024-06-06 18:05   湖南  

文章的纲要如下图,主要分为三部分,首先讲述机器学习的关键概念;其次,机器学习赋能疾病生物标志物发现机器学习应用于全基因组预测

1. 机器学习的关键概念
临近夏天,相信大家都有过买🍉的经历,我们在买🍉的时候,总会拿起西瓜敲一敲,听听响声,一般响声浊响的西瓜甜。当然,除了听响声,西瓜的颜色和条纹也需要考虑在内,颜色深的和条纹清晰的西瓜一般比较甜。在上述挑西瓜的例子当中,充分体现了我们人类学习的过程,我们从过去的挑甜西瓜的相关经验中总结出甜瓜的规律,然后用这个规律指导我们怎样挑西瓜。其实机器学习也是类似的,最大的区别是机器替换了人类,过去的经验对于机器来说就是历史数据,机器学习处理的是数据,算法从数据中学习出规律和模式(pattern),以应用在新数据上预测其输出(图1)。

图1 机器学习和人脑归纳经验的类比图

上图表格中包含3个西瓜的历史数据。表格的每一行代表一个西瓜的数据,颜色,根蒂及重量代表了西瓜的三个特征或者属性,最后一列的标签(label)代表了这个西瓜是甜还是不甜。有了历史数据之后,机器需要一个算法去学习这些历史数据,训练出一个模型(即学习特征X和标签y之间的映射关系,y = f(X)),模型可以用来对未来的数据做判断,不同的算法可能训练出不同的模型。比如通过3个西瓜的数据,机器可能得出下面两种模型:第一种,颜色青绿,根蒂硬挺且重量为5千克的西瓜都是甜的;第二种,颜色浅白,根蒂蜷缩且重量为5.4千克的西瓜不甜。

1.1 机器学习的基本分类 

机器学习按照分类可大体分为三类,有监督学习,无监督学习及强化学习(图2)。
  • 有监督学习:通过训练样本学习得到一个模型,然后用这个模型进行推理。在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,比如上面挑西瓜的例子就属于有监督学习。其中,有监督学习又可以分为分类问题和回归问题。分类问题:预测所属类别值,即标签是类别型的,比如预测疾病与健康;回归问题,指预测标签为数值型,比如预测房价,预测作物的产量等 。

  • 无监督学习:在非监督式学习中,数据并不被标识,学习模型是为了推断出数据的一些内在结构。在这类学习任务中,最常见的为聚类任务(常见的算法有kmeans, 层次聚类,以及基于密度的聚类算法DBSCAN);数据降维 (PCA, tSNE, uMAP)。例如,在高分文章中,我们经常看到用tSNE等降维算法将高维度的单细胞转录组表达谱映射到二维平面上从而以散点图的形式进行可视化。
  • 强化学习:是一类特殊的机器学习算法,算法要根据当前的环境状态确定一个动作来执行,然后进入下一个状态,如此反复,目标是让得到的收益最大化。强化学习最经典的例子当属alphaGO(https://mp.weixin.qq.com/s/5ln9qmidUTqIQdiGC_g9-Q)。

图2 机器学习的基本分类

1.2 机器学习的基本流程

以有监督学习为例,首先需要收集数据,并将数据整理成规范化格式,之后进行数据预处理,然后划分训练测试样本并于训练集中训练机器学习模型,最终对模型进行评估(图3)。在正式开始训练模型之前,我们需要进行数据预处理,也称为特征工程。建立特征工程的目的就是将原始数据处理成可以直接输入给算法的数据特征。特征预处理、数据清洗是很关键的步骤,往往能够使得算法的效果和性能得到显著提高。预处理内容包括:归一化、离散化、因子化、缺失值处理、去除共线性等。

图3 机器学习的基本流程

1.3 机器学习的常用分类器

机器学习的常用分类器主要包括逻辑回归(logistic regression),支持向量机(support vector machine),随机森林(random forest)。各分类器的优劣势见下图。

图4 机器学习的常用分类器

1.4 模型评价

交叉验证(CrossValidation,CV) 是在机器学习建立模型和验证模型参数时常用的方法。顾名思义,就是重复使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集。用训练集来训练模型,测试集来评估模型的好坏。交叉验证能够从有限的数据中获取尽可能多的有效信息。此外,交叉验证用于评估模型的预测性能,一定程度上减小过拟合。

常用的交叉验证方式:
•十折(Ten fold)交叉验证(图5)及留一法(Leave one out)交叉验证。
交叉验证方法选择:
•一般推荐十折交叉验证,而当样本量少时,用留一交叉验证。

图5 十折交叉验证示意图

在模型评价环节,有多种评价指标可用于评估模型性能,包括AUC值,召回率Recall,F1-score,约登指数Younden index等(图6)。下图给出了各评价指标的计算公式,总的来说,在混淆矩阵(confusion matrix)中,主对角线数值越大表示预测结果越准确。在ROC曲线中,曲线越靠近模型左上角,模型性能越好。

图6 多种模型评价指标

1.5 机器学习常用的工具包

用R的朋友,可以使用e1071(支持向量机),randomForest构建随机森林模型,glmnet构建LASSO模型,caret(可完成数据预处理、特征选择、抽样、模型调参机器学习步骤);此外,reportROC包也是作者本人强烈推荐的,可以计算非常全面的模型评价指标且包含95%置信区间的计算,医学期刊经常要求提供统计量的置信区间。
用python的朋友,可以使用scikit-learn(Python的开源机器学习库,它实现了许多分类、回归、聚类等常用机器学习算法)。从事深度学习研究的朋友,强烈推荐pytorch深度学习库,可配合B站上亚马逊首席AI科学家李沐老师的视频一起使用。

2. 机器学习赋能疾病生物标志物发现

特征选择是指从给定的特征集合中选择相关特征子集的过程。通过做特征选择,可以对数据去冗余及降噪。
特征选择方法可大体分为三类
Ø过滤型:按照发散性或相关性对各个特征进行评分,设定阈值或选择阈值的个数选择特征。例如,基于差异分析的差异倍数fold change挑选Top特征
Ø嵌入型:根据模型分析特征的重要性。利用正则化思想,将部分特征属性的权重变成零。经典的算法如,LASSO。
Ø包裹型:把特征选择看做一个特征子集搜索问题,筛选各种子集,用模型评估效果。经典的算法如,RFE/IFS

嵌入型的典型代表算法LASSO回归的基本思路,给回归方程加一个惩罚项,惩罚作用和系数大小成比例。可以将特征的系数进行压缩并使某些回归系数变为0,进而达到特征选择的目的,可以广泛地应用于模型改进与选择。在lasso回归中有一个超参λ,越大惩罚越强,越小越弱。

图7 LASSO回归方程中回归系数轨迹图

包裹型的算法如递归特征消除(Recursive feature elimination, RFE)和逐次特征选择(Incremental feature selection,IFS),下文为RFE的工作原理:

1.将N个特征全部纳入模型中,得到特征对应的权值系数;

2.移除掉贡献度最低的那个特征;

3.继续用剩下的N-1个特征进行模型训练,再进行特征移除;

4.以此类推,直至剩余0个特征数量为止。

其中每次建立模型时将对应的特征子集和样本类别信息作为分类器模型的输入,用交叉验证方法计算该特征子集对样本的预测准确度。
RFE是后向选择算法,与之对应的前向算法有逐次特征选择(Incremental feature selection, IFS),其原理如下:

1.根据训练集中差异分析Wilcox test的p值,将分子特征按升序排列;

2.在有N个表达量特征的数据集中进行迭代;

3.在第i次迭代中,我们使用排序后的前i个表达量特征构建特征子集;

4.使用第i个特征子集和样本类别信息作为分类器模型的输入,用交叉验证方法计算该表达量特征子集对样本的预测准确度。

5.重复上述第3步和第4步。

图8 特征选择曲线


2.1 酒精性脂肪肝非侵入性生物标志物

第一篇高水平文章来自德国马普所的Matthias Mann课题组在Nature medicine期刊上发表的酒精性脂肪肝非侵入性生物标志物的研究成果[1]。该研究通过机器学习建立检测早期纤维化、炎症和脂肪变性的预测模型,分析结果显示,血浆蛋白质组学衍生的生物标记物群组在同时检测纤维化、炎症和脂肪变性,并将其用于ALD和NAFLD细胞和组织方面具有潜在的临床价值。最后研究人员对预测模型进行了验证,结果证明基于高深度定量蛋白质组学分析构建的血浆生物标志物群组为诊断、分期和预测ALD进展提供了一个可靠的、微创性的策略。

2.2 人类尿液蛋白质组参考区间方法的工作流程

第二篇,来自凤凰中心的秦均教授团队在EBioMedicine期刊上发表的人类尿液蛋白质组参考区间方法的工作流程相关方法学文章 [2]。这篇文章的主要创新点在于,尿液作为非侵入性采样源,在生物标志物发现方面具有巨大潜力;此外,建立尿液蛋白质组参考区间(Reference Intervals, RIs),使用非参数百分位数方法计算个人和人群参考区间。

方法学的具体流程如下:

1)参考区间建立:
•通过分析健康人群的尿液样本,确定尿液蛋白质组的正常参考区间(Reference Intervals, RIs)。使用非参数百分位数方法计算个人和人群参考区间。
2)异常蛋白质识别:
•在癌症患者样本中,识别出那些显著高于正常参考区间上限的蛋白质。
•这些蛋白质被认为是潜在的癌症相关异常蛋白质。
3)癌症筛查算法:
•利用超几何分布检验(hypergeometric test)来评估癌症样本中异常蛋白质的统计显著性。通过重复这个过程多次(例如20次),并绘制接收者操作特征曲线(ROC curve),以确定最佳的p值截止点。最终,基于这些统计分析,建立了一个癌症筛查算法。
4)性能评估:
•使用癌症样本对算法进行验证,评估其在疾病筛查中的性能。
•通过计算算法的敏感度(Sensitivity)、特异性(Specificity)和准确率(Accuracy)等指标来评估算法的性能。
5)结果应用:
•将算法应用于新的尿液样本,以预测样本是否来自癌症患者。
•通过比较预测结果与实际诊断结果,评估算法的临床效用。

图9 参考区间流程示意图

2.3 乳腺癌治疗响应的多组学机器学习预测器

由英国剑桥大学乳腺癌专家Carlos Caldas教授团队在nature正刊上发表的乳腺癌治疗响应的多组学机器学习预测器文章。作者表明对乳腺癌治疗响应是由预先治疗的肿瘤生态系统调节的,并且它的多组学景观可以使用机器学习集成到预测模型中,发现对治疗的反应取决于通过数据集成和机器学习捕获的肿瘤生态系统整体的基线特征 [3]。

本研究确定了幼稚肿瘤生态系统中存在的与治疗反应相关的临床、数字病理学、基因组和转录组特征,尽管这些特征单独而言都没有表现出稳健的表现。这促使人们使用机器学习框架(图 10)将特征集成到 预测模型中。使用以下方法衍生出一系列包括不同特征组合的六种 预测模型:(1) 仅使用临床特征,并添加 (2) DNA、(3) RNA、(4) DNA 和 RNA、(5) DNA、RNA 和数字病理学、(6) DNA、RNA、数字病理学和治疗。这些模型基于多步预测流程。在流程中,特征首先通过单变量选择方法和去除特征间共线性进行过滤,然后输入未加权的集成分类器。每个集成分类器由三种基分类器组成:具有弹性网络正则化的逻辑回归、支持向量机和随机森林;最后,对三个分类器得分进行平均以形成集成预测器

图10 集成学习模型工作流程

3. 机器学习应用于全基因组预测

全基因组选择(Genomic Selection,简称GS)这一概念由挪威生命科学大学的Theo Meuwissen 教授于2001年提出。它是一种利用覆盖全基因组的高密度分子标记进行选择育种的方法,可通过构建预测模型,根据基因组估计育种值(Genomic Estimated Breeding Value, GEBV)进行早期个体的预测和选择,从而缩短世代间隔,加快育种进程,节约大量成本。具体地,假设我们有一个训练群体(同时含有基因型数据及表型数据),之后在训练群体当中构建GS模型,待模型训练好以后可将该模型应用到已有基因型数据的育种群体当中得到预测的表型值(图11)。GS本质上就是用基因型去预测表型

图11 全基因组预测示意

3.1 GS模型分类

GS模型从分类上看,大体分为参数,半参数以及非参数三大类。参数模型主要包括:基于偏最小二乘的回归方法,主成分回归,混合线性模型;贝叶斯类的方法;带惩罚项的回归模型LASSO及其变体。半参数模型主要有再生核希尔伯特空间,非参数模型主要包括传统机器学习方法(随机森林,支持向量机,梯度提升决策树等)以及近年来非常火的深度学习算法。

图12 GS模型分类

3.2 GS中深度学习算法的关键文献

传统的 GS 模型依赖于基于 BLUP(例如rrBLUP 和GBLUP)和基于贝叶斯等统计算法,通常难以应对分子标记的高维性以及基因型和表型复杂映射关系。

深度学习技术开创了基因组选择的新时代。如用于从基因型预测表型的R包 DeepGS [5] (可类比于图灵奖得主Yann LeCunn开发的卷积神经网络在深度学习发展史中的地位)和DNNGP [6],利用深度神经网络和策略,包括卷积、抽样、丢弃和集成学习来处理高维基因型数据的复杂性。例如,DeepGS通过提供更准确的表型值选择补充了传统方法(如rrBLUP)。DNNGP的主要创新点在于可整合多组学数据,在技术层面,使用了早停止技术及Batch normalization (可起到稳定和加速的作用,有助于提高模型的性能和泛化能力)

此外,SoyDNGP [7]模型是深度学习在作物育种中进行基因组预测的另一个重要示例。SoyDNGP模型的一个关键创新点在于给出了一种新的特征编码方式。传统模型通常将 DNA 序列转换为“独热编码(one-hot)”的二进制数据,从而导致大型稀疏矩阵,而SoyDNGP 将遗传变异图谱数据转化为类似图像的数据格式,使卷积神经网络 (CNN) 能够像图像识别任务一样处理这些信息。

在人类复杂遗传疾病预测领域,罗宵教授提出了一种基于胶囊神经网络的基因组预测模型DiseaseCapsule [8],可基于个体基因型数据准确预测复杂遗传疾病(如渐冻症、帕金森)的表型。DiseaseCapsule是第一个使用胶囊神经网络进行全基因组预测(人类复杂遗传疾病)的方法。测试结果表明DiseaseCapsule预测准确率与召回率显著优于其他方法;通过对模型的可解释性研究,发现了一些未报道过的与疾病相关的基因。该工作初步表明,胶囊网络在基于基因组预测方面具有极大的潜力,能解决卷积神经网络的诸多弊端(传统的卷积神经网络(CNN)在图像识别方面,缺乏对空间信息的利用,缺乏对预测结果的可解释性,以及对旋转、缩放等变换的敏感性,对大量训练数据的依赖)。


作者简介

凌雷,湖南大学生物学院罗宵教授课题组成员。曾于国内头部蛋白质组学企业杭州景杰生物科技股份有限公司担任高级生物信息算法工程师,景杰生信研发团队核心成员,科研服务部大项目攻坚组主力。在统计遗传学,机器学习,智慧育种等前沿生信细分领域有着丰富实战经验,并作为业界导师指导研究生及临床医生发表SCI论文两篇。主要研究兴趣包括大语言模型(Large Language Model)以及可解释性深度学习xAI。

参考文献

Niu, L., Thiele, M., Geyer, P.E. et al. Noninvasive proteomic biomarkers for alcohol-related liver disease. Nat Med 28, 1277–1287 (2022). https://doi.org/10.1038/s41591-022-01850-y
2    Leng W, Qin J. Proof-of-Concept Workflow for Establishing Reference Intervals of Human Urine Proteome for Monitoring Physiological and Pathological Changes. EBioMedicine. 2017 Apr;18:300-310
Sammut, SJ., Crispin-Ortuzar, M., Chin, SF. et al. Multi-omic machine learning predictor of breast cancer therapy response. Nature 601, 623–629 (2022). https://doi.org/10.1038/s41586-021-04278-5
4 AlemuA, et al. Genomic selection in plant breeding: Key factors shaping two decades of progress. Mol Plant. 2024 Apr 1;17(4):552-578.
Ma, W. et al. A deep convolutional neural network approach for predicting phenotypes from genotypes. Planta 248, 1307–1318 (2018)
Wang, K. et al. DNNGP, a deep neural network-based method for genomic prediction using multi-omics data in plants. Molecular Plant 16, 279–293 (2023)
Gao, P. et al. SoyDNGP: a web-accessible deep learning framework for genomic prediction in soybean breeding. Briefings in Bioinformatics 24, bbad349 (2023)
8 Luo, X., Kang, X. & Schönhuth, A. Predicting the prevalence of complex genetic diseases from individual genotype profiles using capsule networks. Nature Machine Intelligence 5, 114–125 (2023)

招聘招生
罗宵教授课题组长期招聘博士后,有生物学、基因组学、计算机科学、应用数学或其他相关专业背景,具备一定生信分析经验者优先。提供具有竞争力的薪酬待遇,表现优秀者提供去国外优秀实验室访学交流的机会。更多详细信息可参考:https://mp.weixin.qq.com/s/S3Hjx7N9prXo7V9y-elkGg
境外博士可以申请湖南大学“赫曦博士后”(薪酬不低于47万元/年+学院及导师配套+高水平成果、科技成果转化等科研奖励+长沙市人才补贴和购房补贴13-20万,可申请编制内教学科研岗位),详见:湖南大学“赫曦博士后”全球招聘
常年招收硕士研究生,接收本科生、联合培养研究生等进行科研训练。表现优秀者可推荐至国外优秀实验室联合培养或继续深造。
课题组拥有高性能计算平台和良好的办公环境,学术氛围宽松自由,优秀者可自带课题加入。诚邀有志于从事基因组学、生物信息学等领域研究的人才加盟,共谋发展!
有意者请将简历及相关证明材料发送至xluo@hnu.edu.cn 或者发送至科研助理凌雷的邮箱 linglei@nwafu.edu.cn

计算基因组学
分享计算基因组学与生物信息学相关的知识,研究进展等