太心动了,R语言搞定机器学习孟德尔随机化全流程

文摘   2024-07-31 15:07   美国  

关注医豌豆 助力SCI


MR相关机器学习

MR多层次联合课程

行稳致远

进而有为


医豌豆工作室特推出孟德尔随机化相关机器学习课程;

基于R语言的机器学习

已于3月31日上线;

孟德尔随机化结合机器学习有如下好处:   

      • 提升研究深度广度,加速基础研究到临床应用的转化

      • 探索新的生物标记物和因果路径

      • 增强因果推断的鲁棒性

      • 促进多模态数据的综合分析

为你的SCI文章添砖加瓦!


今天就让小编给大家带来机器学习常用模型的介绍吧!图文并茂,便于理解,详情请各位往下看!



机器学习简介

定义

    机器学习是人工智能的一个分支,是一种强大的数据分析处理技术,它使计算机能够数据中自动分析获得规律,并利用规律对未知数据进行预测。在医学领域,机器学习可以通过分析遗传、表型和分子等复杂的生物数据帮助识别疾病相关的蛋白质和基因


类型

    监督学习 (Supervised Learning): 训练数据包括输入和预期输出,目标是学习一个模型,预测新数据的输出。在生物信息学中用于基因表达数据的分类和预测。

    非监督学习 (Unsupervised Learning): 训练数据不包括预期输出,目标是发现数据中的结构。常用于基因分组和生物标记物的发现。

    强化学习 (Reinforcement Learning): 通过奖励或惩罚来学习行为策略,适用于动态决策过程,如在治疗方案优化中的应用。

分析流程

    示意图如下 


用途

    接上,我们可以使用诸多机器学习模型(模型超多种!如下图,大体可分为三类--class,clust,regression--后话),如决策树、随机森林和深度学习网络等,在大规模生物数据中识别与特定疾病相关遗传标记(如关键的基因、蛋白质等)。

和孟德尔如何结合

    接上,而后

    一方面,我们可以利用关键基因/蛋白质,构建模型从而实现对疾病的诊断或预后预测

    另一方面,在识别到关键基因/蛋白质后,可以结合孟德尔随机化分析判断因果关系


常用机器学习模型介绍

GLM with Elastic Net Regularization

1. 基本概念:一种统计学模型,结合了岭回归(Ridge Regression)和套索回归(Lasso Regression)的特点。该模型被广泛应用于具有高维特征(即特征数量多)的数据集中,特别是在存在多重共线性(multicollinearity)的情况下

2. 特点:

  • 特征选择:Elastic Net 可以自动进行特征选择,剔除对目标变量影响较小的特征,从而提高模型的泛化能力和解释性。

  • 适用性:适用于高维数据集,特别是当数据集存在共线性或冗余特征时。

  • 灵活性:通过调节超参数来控制岭回归和套索回归的惩罚程度,从而灵活地平衡模型的偏差和方差。


k-Nearest Neighbors (k-NN) 

1. 基本概念

  • 基于实例的学习:k-NN 是一种基于实例的学习方法,这意味着它不显式地学习一个模型,而是直接使用训练数据进行预测。

  • 邻居的选择:在进行预测时,算法会在数据集中找出与新样本最近的 k 个训练样本,这些样本被称为“邻居”。

  • 多数投票或平均:对于分类任务,k-NN 通常采用多数投票的方式确定新样本的类别;对于回归任务,则通过计算邻居的目标值的平均来预测新样本的数值。

2. 距离的度量

  • 欧几里得距离:最常用的距离度量方法,适用于连续特征。

  • 曼哈顿距离:适用于那些特征差异绝对值的累加对预测结果影响较大的情况。

  • 明可夫斯基距离:是欧几里得距离和曼哈顿距离的一般化形式。

LDA和QDA

一. Linear Discriminant Analysis (LDA)

1. 基本概念

  • 分类与降维:LDA 不仅可以用作分类模型,还常用于降维,尤其是为了分类任务的预处理。

  • 类内和类间散度:LDA 通过最大化类间散度(不同类别的数据点之间的距离)和最小化类内散度(同一类别内数据点的距离)来实现数据的有效分离。

2. 工作原理

  • 计算类内和类间矩阵:首先计算类内散布矩阵(表示同一类别中样本的分布)和类间散布矩阵(表示不同类别样本中心的差异)。

  • 求解特征向量和特征值:通过求解这些矩阵的特征值和特征向量,找到能够最好地区分不同类别的方向。

  • 投影到新空间:将数据投影到这些特征向量定义的新空间中,使得投影后的类别之间具有最大的区分度。

二.Quadratic Discriminant Analysis (QDA)

1. 基本概念

  • 分类模型:QDA是一种监督学习模型,用于根据观察到的特征将实例分配到预先定义的类别中。

  • 概率基础:QDA假设每个类别的数据都来自多元正态分布(高斯分布),但每个类别可以有不同的协方差矩阵。

2. 决策边界

  • 二次决策边界:与LDA的线性决策边界不同,QDA可以创建二次(曲线形)决策边界,这使得它在处理类内方差不同的数据集时更为灵活和有效。

3. 主要特点

  • 灵活性:由于允许每个类具有不同的协方差结构,QDA能够适应更为复杂的数据结构。

  • 计算需求:与LDA相比,QDA需要计算和存储更多的参数(每个类一个协方差矩阵),这可能导致在小样本大小的数据集上过拟合。

  • 应用限制:虽然QDA在类别具有不同方差和分布时表现良好,但在样本量不足时可能不稳定。


Classification Tree 和 Random Forest

 一. Classification Tree (分类树)

1.基本概念

分类树是一种决策树,用于将实例分到某些预定类别中。它是通过学习简单的决策规则来递归分割数据集。

2.决策规则

树的每个节点代表一个决策规则,这种规则是关于某个特征的阈值判断。

3.树形结构

从根到叶的每一条路径都构成了一个分类的决策序列,叶节点代表最终的决策结果。

二.Random Forest (随机森林)

1.基本概念

随机森林是一种集成学习技术,它通过构建多个决策树(classification trees)并将它们的预测结果进行合并来提高整体模型的准确性和稳定性。

2.工作原理

  • 集成方法:随机森林属于集成学习方法中的“bagging”类别,主要思想是组合多个模型以减少预测的方差。

  • 构建多个决策树:每棵树都是在数据集的一个随机子集上训练得到的,这种子集通常是通过bootstrap(有放回抽样)方式得到的。

  • 多数投票机制:在分类任务中,随机森林通过多数投票的方式来决定最终的类别;在回归任务中,则是取所有树预测结果的平均值。

3.主要特点

  • 鲁棒性强:由于构建了多棵树,随机森林通常对噪声和异常值不太敏感。

  • 抗过拟合能力强:相较于单一的决策树,随机森林在大多数情况下不容易过拟合。

  • 自动特征选择:在构建树的过程中,随机森林能够评估各个特征的重要性。

Support Vector Machine (SVM)

1.基本概念

  • 最大间隔分类器:SVM 通过寻找一个超平面来分隔不同的类别,同时确保到每个类别最近点的距离(即间隔)最大化。

  • 支持向量:超平面的确定主要依赖于那些距离最近的数据点,这些点被称为支持向量,它们直接影响到超平面的位置和方向。

  • 核技巧:当数据不是线性可分的时,SVM 通过使用核函数将数据映射到更高维的空间中,使得在新的空间中数据可用超平面线性分隔。

2. 核函数

  • 线性核:用于线性可分的数据。

  • 多项式核:适用于数据点间关系更为复杂的非线性模式。

  • 径向基函数核(RBF):一种常用的核函数,特别适合处理没有明显规律的复杂数据集。

3. 主要特点

  • 泛化能力强:由于间隔最大化原则,SVM 往往具有较好的泛化能力,即在未知数据上的表现较好。

  • 适用于小样本数据:SVM 在小样本训练数据上也能表现出良好的效果。

  • 灵活性:通过选择不同的核函数,SVM 可以适用于各种类型和复杂程度的数据集。

Extreme Gradient Boosting (XGBoost)

1. 基本概念

  • Boosting 方法:XGBoost 属于 Boosting 类别的算法,这意味着它通过连续地添加弱学习器(通常是决策树)来创建一个强学习器。每一个新的树模型都是为了改正前面模型的错误。

  • 梯度提升:XGBoost 使用梯度提升(Gradient Boosting)框架,它通过优化一个可微分的损失函数来增强模型的预测能力。

  • 正则化:与其他梯度提升方法不同,XGBoost 在目标函数中加入了正则化项(L1 和 L2),这有助于控制模型的复杂度,从而避免过拟合。

2. 主要特点

  • 并行处理:虽然树模型本身是顺序构建的,XGBoost 优化了计算过程,可以在训练树的各个阶段并行处理,显著提高了效率。

  • 可扩展性:XGBoost 能够处理大规模数据,支持在分布式环境中运行,如 Hadoop、Spark 等。

  • 灵活性:支持用户自定义优化目标和评估标准,适用于各种不同的领域和需求。

Single Layer Neural Network

1. 基本结构

  • 输入层:接收输入特征数据。

  • 权重和偏置:每个输入特征都有一个权重,神经元还包括一个偏置项。

  • 激活函数:输出层的神经元使用激活函数来决定是否激活,常见的激活函数有阶跃函数、sigmoid函数等。

2. 工作原理

  • 加权求和:输入特征与各自的权重相乘,所有结果加上偏置后进行求和。

  • 激活决策:将加权求和的结果通过激活函数处理,以决定输出层神经元的输出。在最简单的感知机模型中,如果结果大于某个阈值,输出1,否则输出0。

3. 训练过程

  • 权重更新:使用如梯度下降等方法在训练过程中调整权重和偏置,以最小化预测错误。

  • 误差修正:每个训练样本都会对权重进行一次更新,目标是减少预测值和实际值之间的差异。

4. 主要特点

  • 简单高效:由于模型结构简单,计算效率高,特别适用于解决简单的线性分类问题。

  • 易于理解和实现:模型易于实现,是学习神经网络概念的良好起点。

  • 局限性:单层网络无法解决非线性问题,比如XOR问题就无法通过单层感知机解决。




孟德尔随机化相关机器学习

课程目录--对疾病关键蛋白、基因的分析

1. 机器学习的介绍及其在关键蛋白质、基因等筛选中的应用

2. mlr3verse R 包的安装及简单应用(R语言中最常用的机器学习 R包)

3. 常用机器学习模型(Lasso, Stepglm, glmBoost 等)的使用

4 .数据预处理与特征选取

5. 拆分数据集与训练模型

6 .数据不平衡预处理方法

7. 使用测试集评估模型的性能

8. 机器学习模型的选择与参数调整

9. 机器学习模型的评价指标(混淆矩阵,AUC,PR,校准曲线等)及相关可视化

10. 机器学习模型的解释性评估--基于 SHAP

11. GEO/TCGA 数据库筛选候选基因

12. 疾病组差异分析/发掘强相关基因/通路分析等

13. 实操复现

  • 机器学习对TCGA、GEO数据挖掘联合MR-对关键蛋白质、基因的筛选

  • 利用MR发现的蛋白/基因,构建诊断预后模型


课程价格

机器学习:3999




课程须知

课程价格

3999


授课教师

小波老师

985高校博士,数据分析师;医工结合方向;

擅长孟德尔随机化、Phewas、机器学习等;

发表多篇top一区文章。


适用人群

想发文章保研的大学生

面临考博、毕业的研究生

面临晋升、申课题的临床医生

R语言0基础小白也完全ok哦!


课程特点

1.课程高效!

2.讲解细致!详细展开代码实战讲解,轻松拿下!

3.手把手细致教学,包你学会;

4.干货满满,精准学习!


购课说明

报名支持对公转账、公务卡等支付,可开具正规发票。

后续学习如需升级课程,仅补差价即可。

本课程报名后不支持转让。

因课程特殊性,暂不支持退费退差价。




-END-

行稳致远 进而有为




期待你的

分享

点赞

在看



医豌豆
专业教学开发孟德尔随机化、Phewas、公共数据库等让医学科研变得更简单
 最新文章