关注医豌豆 助力SCI
医豌豆工作室特推出孟德尔随机化相关机器学习课程;
基于R语言的机器学习
已于3月31日上线;
孟德尔随机化结合机器学习有如下好处:
提升研究深度广度,加速基础研究到临床应用的转化
探索新的生物标记物和因果路径
增强因果推断的鲁棒性
促进多模态数据的综合分析
为你的SCI文章添砖加瓦!
今天就让小编给大家带来机器学习常用模型的介绍吧!图文并茂,便于理解,详情请各位往下看!
机器学习简介
定义
机器学习是人工智能的一个分支,是一种强大的数据分析处理技术,它使计算机能够从数据中自动分析获得规律,并利用规律对未知数据进行预测。在医学领域,机器学习可以通过分析遗传、表型和分子等复杂的生物数据帮助识别疾病相关的蛋白质和基因。
类型
监督学习 (Supervised Learning): 训练数据包括输入和预期输出,目标是学习一个模型,预测新数据的输出。在生物信息学中用于基因表达数据的分类和预测。
非监督学习 (Unsupervised Learning): 训练数据不包括预期输出,目标是发现数据中的结构。常用于基因分组和生物标记物的发现。
分析流程
示意图如下
用途
接上,我们可以使用诸多机器学习模型(模型超多种!如下图,大体可分为三类--class,clust,regression--后话),如决策树、随机森林和深度学习网络等,在大规模生物数据中识别与特定疾病相关的遗传标记(如关键的基因、蛋白质等)。
和孟德尔如何结合
接上,而后
一方面,我们可以利用关键基因/蛋白质,构建模型从而实现对疾病的诊断或预后预测;
另一方面,在识别到关键基因/蛋白质后,可以结合孟德尔随机化分析判断因果关系。
常用机器学习模型介绍
GLM with Elastic Net Regularization
1. 基本概念:一种统计学模型,结合了岭回归(Ridge Regression)和套索回归(Lasso Regression)的特点。该模型被广泛应用于具有高维特征(即特征数量多)的数据集中,特别是在存在多重共线性(multicollinearity)的情况下
2. 特点:
特征选择:Elastic Net 可以自动进行特征选择,剔除对目标变量影响较小的特征,从而提高模型的泛化能力和解释性。
适用性:适用于高维数据集,特别是当数据集存在共线性或冗余特征时。
灵活性:通过调节超参数来控制岭回归和套索回归的惩罚程度,从而灵活地平衡模型的偏差和方差。
k-Nearest Neighbors (k-NN)
1. 基本概念
基于实例的学习:k-NN 是一种基于实例的学习方法,这意味着它不显式地学习一个模型,而是直接使用训练数据进行预测。
邻居的选择:在进行预测时,算法会在数据集中找出与新样本最近的 k 个训练样本,这些样本被称为“邻居”。
多数投票或平均:对于分类任务,k-NN 通常采用多数投票的方式确定新样本的类别;对于回归任务,则通过计算邻居的目标值的平均来预测新样本的数值。
2. 距离的度量
欧几里得距离:最常用的距离度量方法,适用于连续特征。
曼哈顿距离:适用于那些特征差异绝对值的累加对预测结果影响较大的情况。
明可夫斯基距离:是欧几里得距离和曼哈顿距离的一般化形式。
LDA和QDA
1. 基本概念
分类与降维:LDA 不仅可以用作分类模型,还常用于降维,尤其是为了分类任务的预处理。
类内和类间散度:LDA 通过最大化类间散度(不同类别的数据点之间的距离)和最小化类内散度(同一类别内数据点的距离)来实现数据的有效分离。
2. 工作原理
计算类内和类间矩阵:首先计算类内散布矩阵(表示同一类别中样本的分布)和类间散布矩阵(表示不同类别样本中心的差异)。
求解特征向量和特征值:通过求解这些矩阵的特征值和特征向量,找到能够最好地区分不同类别的方向。
投影到新空间:将数据投影到这些特征向量定义的新空间中,使得投影后的类别之间具有最大的区分度。
二.Quadratic Discriminant Analysis (QDA)
1. 基本概念
分类模型:QDA是一种监督学习模型,用于根据观察到的特征将实例分配到预先定义的类别中。
概率基础:QDA假设每个类别的数据都来自多元正态分布(高斯分布),但每个类别可以有不同的协方差矩阵。
2. 决策边界
二次决策边界:与LDA的线性决策边界不同,QDA可以创建二次(曲线形)决策边界,这使得它在处理类内方差不同的数据集时更为灵活和有效。
3. 主要特点
灵活性:由于允许每个类具有不同的协方差结构,QDA能够适应更为复杂的数据结构。
计算需求:与LDA相比,QDA需要计算和存储更多的参数(每个类一个协方差矩阵),这可能导致在小样本大小的数据集上过拟合。
应用限制:虽然QDA在类别具有不同方差和分布时表现良好,但在样本量不足时可能不稳定。
Classification Tree 和 Random Forest
一. Classification Tree (分类树)
1.基本概念
分类树是一种决策树,用于将实例分到某些预定类别中。它是通过学习简单的决策规则来递归分割数据集。
2.决策规则
树的每个节点代表一个决策规则,这种规则是关于某个特征的阈值判断。
3.树形结构
从根到叶的每一条路径都构成了一个分类的决策序列,叶节点代表最终的决策结果。
二.Random Forest (随机森林)
1.基本概念
随机森林是一种集成学习技术,它通过构建多个决策树(classification trees)并将它们的预测结果进行合并来提高整体模型的准确性和稳定性。
2.工作原理
集成方法:随机森林属于集成学习方法中的“bagging”类别,主要思想是组合多个模型以减少预测的方差。
构建多个决策树:每棵树都是在数据集的一个随机子集上训练得到的,这种子集通常是通过bootstrap(有放回抽样)方式得到的。
多数投票机制:在分类任务中,随机森林通过多数投票的方式来决定最终的类别;在回归任务中,则是取所有树预测结果的平均值。
3.主要特点
鲁棒性强:由于构建了多棵树,随机森林通常对噪声和异常值不太敏感。
抗过拟合能力强:相较于单一的决策树,随机森林在大多数情况下不容易过拟合。
自动特征选择:在构建树的过程中,随机森林能够评估各个特征的重要性。
Support Vector Machine (SVM)
1.基本概念
最大间隔分类器:SVM 通过寻找一个超平面来分隔不同的类别,同时确保到每个类别最近点的距离(即间隔)最大化。
支持向量:超平面的确定主要依赖于那些距离最近的数据点,这些点被称为支持向量,它们直接影响到超平面的位置和方向。
核技巧:当数据不是线性可分的时,SVM 通过使用核函数将数据映射到更高维的空间中,使得在新的空间中数据可用超平面线性分隔。
2. 核函数
线性核:用于线性可分的数据。
多项式核:适用于数据点间关系更为复杂的非线性模式。
径向基函数核(RBF):一种常用的核函数,特别适合处理没有明显规律的复杂数据集。
3. 主要特点
泛化能力强:由于间隔最大化原则,SVM 往往具有较好的泛化能力,即在未知数据上的表现较好。
适用于小样本数据:SVM 在小样本训练数据上也能表现出良好的效果。
灵活性:通过选择不同的核函数,SVM 可以适用于各种类型和复杂程度的数据集。
Extreme Gradient Boosting (XGBoost)
1. 基本概念
Boosting 方法:XGBoost 属于 Boosting 类别的算法,这意味着它通过连续地添加弱学习器(通常是决策树)来创建一个强学习器。每一个新的树模型都是为了改正前面模型的错误。
梯度提升:XGBoost 使用梯度提升(Gradient Boosting)框架,它通过优化一个可微分的损失函数来增强模型的预测能力。
正则化:与其他梯度提升方法不同,XGBoost 在目标函数中加入了正则化项(L1 和 L2),这有助于控制模型的复杂度,从而避免过拟合。
2. 主要特点
并行处理:虽然树模型本身是顺序构建的,XGBoost 优化了计算过程,可以在训练树的各个阶段并行处理,显著提高了效率。
可扩展性:XGBoost 能够处理大规模数据,支持在分布式环境中运行,如 Hadoop、Spark 等。
灵活性:支持用户自定义优化目标和评估标准,适用于各种不同的领域和需求。
Single Layer Neural Network
1. 基本结构
输入层:接收输入特征数据。
权重和偏置:每个输入特征都有一个权重,神经元还包括一个偏置项。
激活函数:输出层的神经元使用激活函数来决定是否激活,常见的激活函数有阶跃函数、sigmoid函数等。
2. 工作原理
加权求和:输入特征与各自的权重相乘,所有结果加上偏置后进行求和。
激活决策:将加权求和的结果通过激活函数处理,以决定输出层神经元的输出。在最简单的感知机模型中,如果结果大于某个阈值,输出1,否则输出0。
3. 训练过程
权重更新:使用如梯度下降等方法在训练过程中调整权重和偏置,以最小化预测错误。
误差修正:每个训练样本都会对权重进行一次更新,目标是减少预测值和实际值之间的差异。
4. 主要特点
简单高效:由于模型结构简单,计算效率高,特别适用于解决简单的线性分类问题。
易于理解和实现:模型易于实现,是学习神经网络概念的良好起点。
局限性:单层网络无法解决非线性问题,比如XOR问题就无法通过单层感知机解决。
孟德尔随机化相关机器学习
课程目录--对疾病关键蛋白、基因的分析
1. 机器学习的介绍及其在关键蛋白质、基因等筛选中的应用
2. mlr3verse R 包的安装及简单应用(R语言中最常用的机器学习 R包)
3. 常用机器学习模型(Lasso, Stepglm, glmBoost 等)的使用
4 .数据预处理与特征选取
5. 拆分数据集与训练模型
6 .数据不平衡预处理方法
7. 使用测试集评估模型的性能
8. 机器学习模型的选择与参数调整
9. 机器学习模型的评价指标(混淆矩阵,AUC,PR,校准曲线等)及相关可视化
10. 机器学习模型的解释性评估--基于 SHAP
11. GEO/TCGA 数据库筛选候选基因
12. 疾病组差异分析/发掘强相关基因/通路分析等
13. 实操复现
机器学习对TCGA、GEO数据挖掘联合MR-对关键蛋白质、基因的筛选
利用MR发现的蛋白/基因,构建诊断预后模型
课程价格
机器学习:3999
课程须知
课程价格
3999
授课教师
小波老师
985高校博士,数据分析师;医工结合方向;
擅长孟德尔随机化、Phewas、机器学习等;
发表多篇top一区文章。
适用人群
想发文章保研的大学生
面临考博、毕业的研究生
面临晋升、申课题的临床医生
R语言0基础小白也完全ok哦!
课程特点
1.课程高效!
2.讲解细致!详细展开代码实战讲解,轻松拿下!
3.手把手细致教学,包你学会;
4.干货满满,精准学习!
购课说明
报名支持对公转账、公务卡等支付,可开具正规发票。
后续学习如需升级课程,仅补差价即可。
本课程报名后不支持转让。
因课程特殊性,暂不支持退费退差价。
-END-
行稳致远 进而有为
期待你的
分享
点赞
在看