太心动了，R语言搞定机器学习孟德尔随机化全流程

文摘 2024-07-31 15:07 美国

关注医豌豆助力SCI

MR相关机器学习

MR多层次联合课程

行稳致远

进而有为

引

言

医豌豆工作室特推出孟德尔随机化相关机器学习课程；

基于R语言的机器学习

已于3月31日上线；

孟德尔随机化结合机器学习有如下好处：

提升研究深度广度,加速基础研究到临床应用的转化
探索新的生物标记物和因果路径
增强因果推断的鲁棒性
促进多模态数据的综合分析

为你的SCI文章添砖加瓦！

今天就让小编给大家带来机器学习常用模型的介绍吧！图文并茂，便于理解，详情请各位往下看！

机器学习简介

定义

机器学习是人工智能的一个分支，是一种强大的数据分析处理技术，它使计算机能够从数据中自动分析获得规律，并利用规律对未知数据进行预测。在医学领域，机器学习可以通过分析遗传、表型和分子等复杂的生物数据帮助识别疾病相关的蛋白质和基因。

类型

监督学习 (Supervised Learning): 训练数据包括输入和预期输出，目标是学习一个模型，预测新数据的输出。在生物信息学中用于基因表达数据的分类和预测。

非监督学习 (Unsupervised Learning): 训练数据不包括预期输出，目标是发现数据中的结构。常用于基因分组和生物标记物的发现。

强化学习 (Reinforcement Learning): 通过奖励或惩罚来学习行为策略，适用于动态决策过程，如在治疗方案优化中的应用。

分析流程

示意图如下

用途

接上，我们可以使用诸多机器学习模型（模型超多种！如下图，大体可分为三类--class，clust，regression--后话），如决策树、随机森林和深度学习网络等，在大规模生物数据中识别与特定疾病相关的遗传标记（如关键的基因、蛋白质等）。

和孟德尔如何结合

接上，而后

一方面，我们可以利用关键基因/蛋白质，构建模型从而实现对疾病的诊断或预后预测；

另一方面，在识别到关键基因/蛋白质后，可以结合孟德尔随机化分析判断因果关系。

常用机器学习模型介绍

GLM with Elastic Net Regularization

1. 基本概念：一种统计学模型，结合了岭回归（Ridge Regression）和套索回归（Lasso Regression）的特点。该模型被广泛应用于具有高维特征（即特征数量多）的数据集中，特别是在存在多重共线性（multicollinearity）的情况下

2. 特点：

特征选择：Elastic Net 可以自动进行特征选择，剔除对目标变量影响较小的特征，从而提高模型的泛化能力和解释性。
适用性：适用于高维数据集，特别是当数据集存在共线性或冗余特征时。
灵活性：通过调节超参数来控制岭回归和套索回归的惩罚程度，从而灵活地平衡模型的偏差和方差。

k-Nearest Neighbors (k-NN)

1. 基本概念

基于实例的学习：k-NN 是一种基于实例的学习方法，这意味着它不显式地学习一个模型，而是直接使用训练数据进行预测。
邻居的选择：在进行预测时，算法会在数据集中找出与新样本最近的 k 个训练样本，这些样本被称为“邻居”。
多数投票或平均：对于分类任务，k-NN 通常采用多数投票的方式确定新样本的类别；对于回归任务，则通过计算邻居的目标值的平均来预测新样本的数值。

2. 距离的度量

欧几里得距离：最常用的距离度量方法，适用于连续特征。
曼哈顿距离：适用于那些特征差异绝对值的累加对预测结果影响较大的情况。
明可夫斯基距离：是欧几里得距离和曼哈顿距离的一般化形式。

LDA和QDA

一. Linear Discriminant Analysis (LDA)

1. 基本概念

分类与降维：LDA 不仅可以用作分类模型，还常用于降维，尤其是为了分类任务的预处理。
类内和类间散度：LDA 通过最大化类间散度（不同类别的数据点之间的距离）和最小化类内散度（同一类别内数据点的距离）来实现数据的有效分离。

2. 工作原理

计算类内和类间矩阵：首先计算类内散布矩阵（表示同一类别中样本的分布）和类间散布矩阵（表示不同类别样本中心的差异）。
求解特征向量和特征值：通过求解这些矩阵的特征值和特征向量，找到能够最好地区分不同类别的方向。
投影到新空间：将数据投影到这些特征向量定义的新空间中，使得投影后的类别之间具有最大的区分度。

二.Quadratic Discriminant Analysis (QDA)

1. 基本概念

分类模型：QDA是一种监督学习模型，用于根据观察到的特征将实例分配到预先定义的类别中。
概率基础：QDA假设每个类别的数据都来自多元正态分布（高斯分布），但每个类别可以有不同的协方差矩阵。

2. 决策边界

二次决策边界：与LDA的线性决策边界不同，QDA可以创建二次（曲线形）决策边界，这使得它在处理类内方差不同的数据集时更为灵活和有效。

3. 主要特点

灵活性：由于允许每个类具有不同的协方差结构，QDA能够适应更为复杂的数据结构。
计算需求：与LDA相比，QDA需要计算和存储更多的参数（每个类一个协方差矩阵），这可能导致在小样本大小的数据集上过拟合。
应用限制：虽然QDA在类别具有不同方差和分布时表现良好，但在样本量不足时可能不稳定。

Classification Tree 和 Random Forest

一. Classification Tree (分类树)

1.基本概念

分类树是一种决策树，用于将实例分到某些预定类别中。它是通过学习简单的决策规则来递归分割数据集。

2.决策规则

树的每个节点代表一个决策规则，这种规则是关于某个特征的阈值判断。

3.树形结构

从根到叶的每一条路径都构成了一个分类的决策序列，叶节点代表最终的决策结果。

二.Random Forest (随机森林)

1.基本概念

随机森林是一种集成学习技术，它通过构建多个决策树（classification trees）并将它们的预测结果进行合并来提高整体模型的准确性和稳定性。

2.工作原理

集成方法：随机森林属于集成学习方法中的“bagging”类别，主要思想是组合多个模型以减少预测的方差。
构建多个决策树：每棵树都是在数据集的一个随机子集上训练得到的，这种子集通常是通过bootstrap（有放回抽样）方式得到的。
多数投票机制：在分类任务中，随机森林通过多数投票的方式来决定最终的类别；在回归任务中，则是取所有树预测结果的平均值。

3.主要特点

鲁棒性强：由于构建了多棵树，随机森林通常对噪声和异常值不太敏感。
抗过拟合能力强：相较于单一的决策树，随机森林在大多数情况下不容易过拟合。
自动特征选择：在构建树的过程中，随机森林能够评估各个特征的重要性。

Support Vector Machine (SVM)

1.基本概念

最大间隔分类器：SVM 通过寻找一个超平面来分隔不同的类别，同时确保到每个类别最近点的距离（即间隔）最大化。
支持向量：超平面的确定主要依赖于那些距离最近的数据点，这些点被称为支持向量，它们直接影响到超平面的位置和方向。
核技巧：当数据不是线性可分的时，SVM 通过使用核函数将数据映射到更高维的空间中，使得在新的空间中数据可用超平面线性分隔。

2. 核函数

线性核：用于线性可分的数据。
多项式核：适用于数据点间关系更为复杂的非线性模式。
径向基函数核（RBF）：一种常用的核函数，特别适合处理没有明显规律的复杂数据集。

3. 主要特点

泛化能力强：由于间隔最大化原则，SVM 往往具有较好的泛化能力，即在未知数据上的表现较好。
适用于小样本数据：SVM 在小样本训练数据上也能表现出良好的效果。
灵活性：通过选择不同的核函数，SVM 可以适用于各种类型和复杂程度的数据集。

Extreme Gradient Boosting (XGBoost)

1. 基本概念

Boosting 方法：XGBoost 属于 Boosting 类别的算法，这意味着它通过连续地添加弱学习器（通常是决策树）来创建一个强学习器。每一个新的树模型都是为了改正前面模型的错误。
梯度提升：XGBoost 使用梯度提升（Gradient Boosting）框架，它通过优化一个可微分的损失函数来增强模型的预测能力。
正则化：与其他梯度提升方法不同，XGBoost 在目标函数中加入了正则化项（L1 和 L2），这有助于控制模型的复杂度，从而避免过拟合。

2. 主要特点

并行处理：虽然树模型本身是顺序构建的，XGBoost 优化了计算过程，可以在训练树的各个阶段并行处理，显著提高了效率。
可扩展性：XGBoost 能够处理大规模数据，支持在分布式环境中运行，如 Hadoop、Spark 等。
灵活性：支持用户自定义优化目标和评估标准，适用于各种不同的领域和需求。

Single Layer Neural Network

1. 基本结构

输入层：接收输入特征数据。
权重和偏置：每个输入特征都有一个权重，神经元还包括一个偏置项。
激活函数：输出层的神经元使用激活函数来决定是否激活，常见的激活函数有阶跃函数、sigmoid函数等。

2. 工作原理

加权求和：输入特征与各自的权重相乘，所有结果加上偏置后进行求和。
激活决策：将加权求和的结果通过激活函数处理，以决定输出层神经元的输出。在最简单的感知机模型中，如果结果大于某个阈值，输出1，否则输出0。

3. 训练过程

权重更新：使用如梯度下降等方法在训练过程中调整权重和偏置，以最小化预测错误。
误差修正：每个训练样本都会对权重进行一次更新，目标是减少预测值和实际值之间的差异。

4. 主要特点

简单高效：由于模型结构简单，计算效率高，特别适用于解决简单的线性分类问题。
易于理解和实现：模型易于实现，是学习神经网络概念的良好起点。
局限性：单层网络无法解决非线性问题，比如XOR问题就无法通过单层感知机解决。

孟德尔随机化相关机器学习

课程目录--对疾病关键蛋白、基因的分析

1. 机器学习的介绍及其在关键蛋白质、基因等筛选中的应用

2. mlr3verse R 包的安装及简单应用（R语言中最常用的机器学习 R包）

3. 常用机器学习模型（Lasso, Stepglm, glmBoost 等）的使用

4 .数据预处理与特征选取

5. 拆分数据集与训练模型

6 .数据不平衡预处理方法

7. 使用测试集评估模型的性能

8. 机器学习模型的选择与参数调整

9. 机器学习模型的评价指标（混淆矩阵，AUC，PR，校准曲线等）及相关可视化

10. 机器学习模型的解释性评估--基于 SHAP

11. GEO/TCGA 数据库筛选候选基因

12. 疾病组差异分析/发掘强相关基因/通路分析等

13. 实操复现

机器学习对TCGA、GEO数据挖掘联合MR-对关键蛋白质、基因的筛选
利用MR发现的蛋白/基因，构建诊断预后模型

课程价格

机器学习：3999

课程须知

课程价格

3999

授课教师

小波老师

985高校博士，数据分析师；医工结合方向；

擅长孟德尔随机化、Phewas、机器学习等；

发表多篇top一区文章。

适用人群

想发文章保研的大学生

面临考博、毕业的研究生

面临晋升、申课题的临床医生

R语言0基础小白也完全ok哦！

课程特点

1.课程高效！

2.讲解细致！详细展开代码实战讲解，轻松拿下！

3.手把手细致教学，包你学会；

4.干货满满，精准学习！

购课说明

报名支持对公转账、公务卡等支付，可开具正规发票。

后续学习如需升级课程，仅补差价即可。

本课程报名后不支持转让。

因课程特殊性，暂不支持退费退差价。

-END-

行稳致远进而有为

期待你的

在看

http://mp.weixin.qq.com/s?__biz=Mzg2ODg2OTc4Mg==&mid=2247491403&idx=4&sn=bdab694a8dc7c493ae0069a87a3ce8aa

医豌豆

专业教学开发孟德尔随机化、Phewas、公共数据库等让医学科研变得更简单

最新文章

最新中科院一区5.8分--错过后悔！抑郁症轨迹分析的百搭发文！

5.8/Q1，山东大学某团队利用ELSA+HRS数据库探究抑郁症状轨迹和心脏事件风险的关系

医学+环境大揭秘！可研究的环境因素清单！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

新风口|恭喜学员发表HRS数据库SCI，快速发文无需实验，发文还有奖学金

医学+环境大揭秘！可研究的环境因素清单！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

医学+环境大揭秘！可研究的环境因素清单！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

重磅加码环境数据！多数据库联动简单发文，高效发一区，快人一步

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

最新干货！空气污染与公共数据库前沿文献一览！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

重磅加码环境数据！多数据库联动简单发文，高效发一区，快人一步

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

手把手教你！空气污染数据提取全攻略，附代码实操！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

重磅加码环境数据！多数据库联动简单发文，高效发一区，快人一步

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

charls数据库高分SCI解读：空气污染正在加剧代谢综合征风险！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

重磅加码环境数据！多数据库联动简单发文，高效发一区，快人一步

科研人必看！HRS数据库RAND数据助你效率翻倍！

实用干货 | CHARLS数据库协变量提取教程，附完整代码！

怎么选题！关于多国健康数据库！

NC教你：孟德尔随机化下一个新风口-单细胞MR

10秒搞定六大蛋白质队列药靶SMR分析--SMRinR0.5.0史诗级更新！

课程教学|Charls的官方harmonised数据使用方法-剑指一区！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉