随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学、表观基因组学、转录组学、蛋白组学和代谢组学必收藏!跟着顶刊学生信-珍藏版
最近的人工智能技术已经从“浅层”学习架构发展到“深度”学习架构。作为人工智能的一个重要分支,机器学习(ML)可以自动学习捕捉复杂的模式,并根据数据做出智能决策。ML在癌症研究和临床肿瘤学中有着非常广泛的应用。特别是,在多组学数据快速增长的推动下,属于ML子领域的基于深度学习(DL)的方法已成为生物医学数据分析的强大工具
下面是近两年人工智能与组学在顶刊发表的部分研究方向
Science Adcances 机器学习代谢组学在胰腺癌的研究
Seminars in Cancer Biology 机器学习多组学在癌症诊断的研究
Nature Protocols 机器学习代谢组学在药物代谢与疾病病理的研究
2022国自然基金机器学习代谢组学在糖尿病视网膜病变的研究
Cell Systems 机器学习蛋白质组学在生物标志物发现的研究
Nature Medicine 机器学习蛋白质组学在酒精相关肝病的研究
Cancer Cell 深度学习对泛癌基因组学进行整合分析
Science Adcances 基因组图谱基于深度学习预测癌症依赖性
人工智能与组学的研究到底有多热,以及为何要举办培训,下面的内容给出了答案
近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学、西湖大学等都在从事人工智能与组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology等知名国际顶刊上,为我们发表顶刊鉴定了基础
由于该项研究资料和学习平台较少,信息技术不公开,培训学习迫在眉睫,特此诚挚邀请您参加“人工智能与组学”线上培训课,参会会员已达2000余名!发顶刊!快上车!
课程一、机器学习与代谢组学线上培训班
课程二、机器学习与蛋白质组学线上培训班
课程三、深度学习基因组学线上培训班
课程四、机器学习微生物组学线上培训班
课程五、机器学习转录组学与表观组学线上培训班
课程六、单细胞测序与空间转录组线上培训班
课程一、机器学习与代谢组学课表内容
第一天
(1) 代谢生理功能;
(2) 代谢疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢流与机制研究;
(6) 代谢组学与药物和生物标志物。
A2 代谢组学实验流程简介
A3 色谱、质谱硬件原理
(1) 色谱分析原理;
(2) 色谱的气相、液相和固相;
(3) 色谱仪和色谱柱的选择;
(4) 质谱分析原理及动画演示;
(5) 正、负离子电离模式;
(6) 色谱质谱联用技术;
(7) LC-MS 的液相系统
A4 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 能量代谢通路;
(3) 三大常见代谢物库:HMDB、METLIN 和 KEGG;
(4) 代谢组学原始数据库:Metabolomics Workbench 和Metabolights.
第二天
(1) 组织、血液和体液样本的提取流程与注意事项;
(2) 用 ACN 抽提代谢物的流程与注意事项;
(3) 样本及代谢物的运输与保存问题;
B2 LC-MS 数据质控与搜库
(1) LC-MS 实验过程中 QC 样本的设置方法;
(2) LC-MS 上机过程的数据质控监测和分析;
(3) XCMS 软件数据转换与提峰;
B3 R 软件基础
(1) R 和 Rstudio 的安装;
(2) Rstudio 的界面配置;
(3) R 的基本数据结构和语法;
(4) 下载与加载包;
(5) 函数调用和 debug;
B4 ggplot2
(1) 安装并使用 ggplot2
(2) ggplot2 的画图哲学;
(3) ggplot2 的配色系统;
(4) ggplot2 画组合图和火山图;
第三天
机器学习
C1 无监督式机器学习在代谢组学数据处理中的应用
(1) 大数据处理中的降维;
(2) PCA 分析作图;
(3) 三种常见的聚类分析:K-means、层次分析与 SOM
(4) 热图和 hcluster 图的 R 语言实现;
C2 一组代谢组学数据的降维与聚类分析的 R 演练
(1) 数据解析;
(2) 演练与操作;
C3 有监督式机器学习在代谢组学数据处理中的应用
(1) 数据用 PCA 降维处理后仍然无法找到差异怎么办?
(2) PLS-DA 找出最可能影响差异的代谢物;
(3) VIP score 和 coef 的意义及选择;
(4) 分类算法:支持向量机,随机森林
C4 一组代谢组学数据的分类算法实现的 R 演练
(1) 数据解读;
(2) 演练与操作;
第四天
(1) 代谢组学中的 t、fold-change 和响应值;
(2) 数据清洗流程;
(3) R 语言 tidyverse
(4) R 语言正则表达式;
(5) 代谢组学数据过滤;
(6) 代谢组学数据 Scaling 原理与 R 实现;
(7) 代谢组学数据的 Normalization;
(8) 代谢组学数据清洗演练;
D2 在线代谢组分析网页 Metaboanalyst 操作
(1) 用 R 将数据清洗成网页需要的格式;
(2) 独立组、配对组和多组的数据格式问题;
(3) Metaboanalyst 的 pipeline 和注意事项;
(4) Metaboanalyst 的结果查看和导出;
(5) Metaboanalyst 的数据编辑;
(6) 全流程演练与操作
第五天
(1) Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;
(2) Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;
(3) 1-2 篇代谢组学与转录组学和蛋白组学结合的文献。
E2 文献数据分析部分复现(1 篇)
(1) 文献深度解读;
(2)实操:从原始数据下载到图片复现;
(3) 学员实操。
课程二:机器学习蛋白组学课表内容
第一天
1.机器学习基本概念介绍
2.常用机器学习模型介绍
3.混淆矩阵
4.ROC曲线
5.主成分分析(PCA)
6.蛋白组学基本概念
R语言简介及实操
1.R语言概述
2.R软件及R包安装
3.R语言语法及数据类型
4.条件语句
5.循环
6.函数
7.常用的机器学习相关R包介绍
第二天
1.利用机器学习鉴定疾病相关蛋白标志物
2.利用机器学习基于蛋白组学数据预测表型
3.利用机器学习基于蛋白组学数据进行分类
4.利用机器学习基于蛋白组学数据构建预后模型
蛋白组学相关数据库介绍
1.Uniport
2.HPA
3.TCPA
4.CPTAC
第三天:零代码工具利用机器学习分析蛋白组学数据
利用PLOS Computational Biology(IF:5分)发表零代码工具,轻松完成差异表达分析,常见统计分析,常见可视化,内置7种机器学习方法,轻松调用。
1.数据导入(两套数据,二分类,多分类)
2.数据可视化(散点图,热图,柱形图,相关性热图,火山图,层次聚类图)
3.缺失值填充
4.数据归一化
5.离群值检测/清理
6.常见统计方法应用(t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析)
7.机器学习方法应用(RF, lasso, SVM等)
第四天
利用机器学习基于蛋白组学数据预测表型,基于蛋白组学数据复现cell中机器学习分析结果
实操内容
1.蛋白组学数据处理,差异表达分析
2.火山图,多分组热图,多组箱型图展示差异表达分析结果
3.构建Random Forest模型
4.重要蛋白筛选
5.绘制ROC曲线
6.独立测试集检测模型表现
利用机器学习鉴定疾病相关蛋白标志物,基于Olink数据,复现影响因子17分文章中,蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果
实操内容
1.读取蛋白表达数据
2.差异蛋白挑选,火山图绘制,箱型图绘制
3.时序蛋白表达数据聚类分析
4.构建随机森林模型
5.挑选重要特征
6.独立测试集进行验证
第五天
实操内容
1.鉴定与不同肝病显著相关的蛋白
2.比较22种不同的机器学习分类器,挑选最优算法构建不同肝病的分类模型
3.独立队列验证模型准确性
4.构建预后模型
5.绘制生存曲线和时间依赖的ROC曲线
第一天
理论内容:
1.有监督学习的神经网络算法
1.1全连接深度神经网络DNN在基因组学中的应用举例
1.2卷积神经网络CNN在基因组学中的应用举例
1.3循环神经网络RNN在基因组学中的应用举例
1.4图卷积神经网络GCN在基因组学中的应用举例
2.无监督的神经网络算法
2.1自动编码器AE在基因组学中的应用举例
2.2生成对抗网络GAN在基因组学中的应用举例
实操内容
1.Linux操作系统
1.1常用的Linux命令
1.2 Vim编辑器
1.3基因组数据文件管理, 修改文件权限
1.4查看探索基因组区域
2.Python语言基础
2.1.Python包安装和环境搭建
2.2.常见的数据结构和数据类型
第二天
理论内容
1.基因组数据库
2.表观基因组
3.转录基因
4.蛋白质组
5.功能基因组
实操内容
基因组常用深度学习框架
1. 安装并介绍深度学习工具包tensorflow, keras,pytorch
2. 在工具包中识别深度学习模型要素
2.1.数据表示
2.2.张量运算
2.3.神经网络中的“层”
2.4.由层构成的模型
2.5.损失函数与优化器
2.6.数据集分割
2.7.过拟合与欠拟合
3.基因组数据处理
3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna设计深度学习模型
3.3使用keras_dna分割训练集、测试集
3.4使用keras_dna选取特定染色体的基因序列等
4.深度神经网络DNN在识别基序特征中应用
4.1实现单层单过滤器DNN识别基序
4.2实现多层单过滤器DNN识别基序
4.3实现多层多过滤器DNN识别基序
第三天
卷积神经网络CNN在基因调控预测中的应用
理论内容
1.Chip-Seq中识别基序特征G4,如DeepG4
2.Chip-Seq中预测DNA甲基化,DeepSEA
3.Chip-Seq中预测转录调控因子结合,DeepSEA
1.DNase-seq中预测染色体亲和性,Basse
2.DNase-seq中预测基因表达eQTL,Enformer
实操内容
复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL
1.复现DeepG4从Chip-Seq中识别G4特征
2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变3.复现Basset,从Chip-Seq中预测染色体亲和性
复现Enformer,从Chip-Seq中预测基因表达eQT
第四天:
深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用
理论内容
1.SNP微阵列中预测拷贝数变异CNV,DeepCNV
2.RNA-Seq中预测premiRNA,dnnMiRPre
3.从蛋白序列中预测调控因子蛋白质,DeepFactor
实操内容
1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异
2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA
复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质
第五天
深度学习在识别及疾病表型及生物标志物上的应用
理论内容
1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType
2.从高维多组学数据中识别疾病表型,XOmiVAE
3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE
实操内容
1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型
2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型
复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因
第六天
理论部分
1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet
实操内容
1. 预处理药物分子结构信息
2. 计算药物相似性
3. 在不同数据集上构建self-attention SWnet
4. 评估self-attention SWnet
5. 构建多任务的SWnet
6. 构建单层SWnet
7. 构建带权值层的SWnet
课程四、机器学习微生物组学应用课表内容
第一天
1.机器学习基本概念介绍
2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)
3. 混淆矩阵
4. ROC曲线
5. 主成分分析(PCA)
6. 微生物学基本概念
7. 微生物学常用分析介绍
1.R语言概述
2.R软件及R包安装
3.R语言语法及数据类型
4.条件语句
5.循环
第二天
1.利用机器学习基于微生物组学数据预测宿主表
2.利用机器学习基于微生物组学数据预测疾病状态
3.利用机器学习预测微生物风险
4.机器学习研究饮食对肠道微生物的影响
微生物学常用分析(实操)
1. 微生物丰度分析
2. α-diversity,β-diversity分析
3. 进化树构建
4. 降维分析
5. 基于OTU的差异表达分析,热图,箱型图绘制微生物biomarker鉴定
第三天:(实操)
1. 加载数据及数据归一化
2. 构建训练模型(GLM, RF, SVM)
3. 模型参数优化
4. 模型错误率曲线绘制
5. 混淆矩阵计算
6. 重要特征筛选
7. 模型验证,ROC曲线绘制利用模型进行预测
第四天(实操)
利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)
1. 加载数据(三套数据)
2. 数据归一化
3. OUT特征处理
4. 机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)
5. 5倍交叉验证
6. 绘制ROC 曲线,比较不同机器学习模型模型性能评估
第五天(实操)
利用机器学习预测微生物风险(多分类)
1. 加载数据
2. 机器学习模型构建(RF, gbm, SVM, LogitBoost等等)
3. 10倍交叉验证
4. 模型性能评估
利用机器学习预测刺激前后肠道菌群变化
1. 数据加载及预处理
2. α-diversity,β-diversity分析
3. RF模型构建(比较分别基于OUT,KO,phylum的模型效果)
4. 10倍交叉验证, 留一法验证
5. 特征筛选及重要特征可视化外部数据测试模型
课程五、机器学习转录组与表观组课表内容
理论部分
高通量测序原理
高通量测序基础
测序方法及数据
二代测序数据分析流程
实操内容
R语言基础
R(4.1.3)和Rstudio的安装
R包安装和环境搭建
数据结构和数据类型
R语言基本函数
数据下载
数据读入与输出
第二天
理论部分
多组学基础
常用生物组学实验与分析方法
常用组学数据库介绍
批量处理组学数据
生物功能分析
基于转录组学的差异基因筛选,疾病预测
组学数据可视化
实操内容
Linux操作系统
Linux操作系统的安装与设置
网络配置与服务进程管理
Linux的远程登录管理
常用的Linux命令
在Linux下获取基因数据
利用Linux 探索基因组区域
Shell script与Vim编辑器
基因组文件下载与上传
Linux权限管理
文件的身份
修改文件的所有者和所属组
修改文件权限
第三天
介绍转录组学的基本概念和研究流程
RNA-seq数据的预处理和质量控制
序列比对和对齐评估
基因表达量估计和差异表达分析
实操内容
转录组测序数据质量控制
转录组数据比对
RNA-seq数据原始定量
主成分分析
原始定量结果差异分析
差异结果筛选及可视化
GO和KEGG通路富集分析
GSEA基因集富集分析
第四天
理论部分
表观遗传学的基本概念和技术介绍
DNA甲基化和组蛋白修饰的分析方法
表观组数据的预处理和质量控制
差异甲基化和差异修饰分析
甲基化和修饰的功能注释和富集分析
甲基化数据的整合分析和基因调控网络构建
表观组数据的可视化方法和工具
介绍其他表观组学技术(如染色质构象捕获)
实操内容
测序数据质量控制和检查
数据比对和多匹配问题
计算结合峰位置
IGV中组学结果可视化
差异peaks分析
结合程度矩阵计算
富集热图和曲线图绘制
第五天
理论部分
机器学习概述
线性模型
决策树
支持向量机
集成学习
模型选择与性能优化
实操内容
决策树算法实现
随机森林算法实现
支持向量机(SVM)算法实现
朴素贝叶斯算法实现
Xgboost算法实现
聚类算法实现
DBSCAN算法实现
层次聚类算法实现
第六天
理论部分
基因功能注释和富集分析
WGCNA(Weighted Gene Co-expression Network Analysis)网络分析
转录因子分析和调控网络构建
转录组数据的可视化方法和工具
转录水平预测蛋白翻译水平
实操内容
创建Seurat对象
数据质控
测序深度差异及标准化
单细胞数据降维
批次效应去除
数据整合
亚群注释
GSVA通路活性分析
单细胞富集分析
课程六、单细胞测序与空间转录组课表内容
第一天
进入单细胞分析所必备的R语言基础
理论内容:
1. 高通量测序原理简介
2. 数据挖掘及其统计应用的简介
3. R语言数据清洁整理与ggplot2的简介
实操内容:
1. Linux命令入门讲解及实操训练。
2. R语言软件介绍与实操
3. R语言基础语法及其常见命令
4. 清洁数据实操与ggplot2绘图简单训练
第二天
单细胞转录组数据分析思路流程及数据实操
理论内容:
1. 单细胞组学研究简介(包含单细胞转录组测序技术进展及其原理)
2. 单细胞多组学简要介绍
3. 单细胞转录组测序技术的常见应用和重要的生物学问题的探索
4. 单细胞主要数据库介绍
5. 单细胞实验介绍、常见的建库结构(以10*建库为例)
6. 单细胞转录组Cellranger上游Pipeline软件代码介绍
7. 单细组学在肿瘤、发育、免疫及其它领域的研究思路的介绍
实操内容:
1. 10X官方单细胞软件Cellranger的讲解;
2. 质控基因和细胞;
3. 选取高可变基因;
4. 降维与分群;
5. Biomarker定义细胞类型;
6. 寻找差异基因;
6. 通过Seurat 合并多样本及消除样本异质性;
7. 通过harmony合并多样本及其消除样本异质性;
8. 通过GSEA对单细胞各个簇进行通路的功能富集分析。
第三天
1. 单细胞转录因子(SCENIC)及其细胞通讯(Cellchart)的介绍
2. 单细胞拟时分析的简介
3. 利用AUCell对单细胞进行基因集打分的简介
4. 结合bulk WGCNA讲解单细胞scWGCNA的原理
实操内容:
1. 通过Monocle2软件对单细胞转录组进行拟时序的分析;
2. 利用AUCell的算法对单细胞进行基因集打分的实操
4. 利用cellchart软件对细胞互作进行分析。
5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(这里统一指模块分析)。
6. 全面解析SCENIC软件进行转录因子预测分析。
第四天
空间转录组数据比对、降维以及聚类等分析
空间转录组多样本及与单细胞数据关联分析
第四天
1. 空间转录组技术的介绍。
2. 空间转录组技术的应用。
3. 空间转录组文章图表的解读。
4. 空间转录组技术在癌症、发育、神经科学等领域的研究思路。
5. 空间转录组数据比对、降维以及聚类等分析
实操内容:
1. 10x Visium 组织优化及文库制备;
2. 10x Visium官方分析软件Space Ranger讲解及实操;
3. Space Ranger输出结果解读;
4. Loupe Browser软件安装及使用;
5. 通过Seurat软件进行降维、聚类和可视化;
6. 通过Seurat进行基因表达可视化。
理论+实操内容
1. 通过Seurat进行空间变量特征的识别;
2. 与单细胞数据关联分析(空间细胞类型定义);
3. 通过Seurat处理多个切片;
4. 单细胞及空间转录组数据分析总结。
课程一、机器学习代谢组学培训班
2023.06.10----2023.06.11全天授课(上午 09.00-11.30 下午 13.30-17.00)
2023.06.13----2023.06.14晚上授课 (晚上 19.00-22.00)
2023.06.17----2023.06.18全天授课(上午 09.00-11.30 下午 13.30-17.00)
课程二、机器学习蛋白质组学培训班
2023.07.1----2023.07.2全天授课(上午 09.00-11.30 下午 13.30-17.00)
2023.07.4----2023.07.5晚上授课 (晚上 19.00-22.00)
2023.07.8-----2023.07.9全天授课(上午 09.00-11.30 下午 13.30-17.00)
课程三、深度学习基因组学
2023.06.10----2023.06.11全天授课(上午 09.00-11.30 下午 13.30-17.00)
2023.06.12----2023.06.13晚上授课 (晚上 19.00-22.00)
2023.06.17----2023.06.18全天授课(上午 09.00-11.30 下午 13.30-17.00)
2023.06.19----2023.06.20晚上授课 (晚上 19.00-22.00)
课程四、机器学习微生物培训时间
2023.06.16晚上授课(晚上 19.00-22.00)
2023.06.17---2023.06.18全天授课(上午09.00-11.30 下午13.30-17.00)+
2023.06.19----2023.06.20晚上授课(晚上 19.00-22.00)
2023.06.26- -2023.06.28 晚上授课(晚 上19.00-22.00)
课程五、机器学习转录组学与表观组学培训时间:
2023.6.10 -----2023.6.11 全天授课(上午09.00-11.30 下午13.30-17.00)
2023.6.13-----2023.6.16晚上授课 (晚上19.00-22.00)
2023.6.17-----2023.6.18全天授课(上午09.00-11.30 下午13.30-17.00)
课程六、单细胞空间转录组培训时间
2023.6.17-----2023.6.18全天授课(上午09.00-11.30 下午13.30-17.00)
2023.6.20-----2023.6.21晚上授课 (晚上19.00-22.00)
2023.6.25 全天授课(上午 09.00-11.30 下午 13.30-17.00)
机器学习转录组学与表观组学、深度学习基因组学
公费价:每人每班¥5880元 (含报名费、培训费、资料费)
自费价:每人每班¥5480元 (含报名费、培训费、资料费)
单细胞空间转录组、机器学习微生物,机器学习代谢组学 、机器学习蛋白质组学
公费价:每人每班¥4680元 (含报名费、培训费、资料费)
自费价:每人每班¥4280元 (含报名费、培训费、资料费)
优惠
优惠1:两班同报:9880元 三班同报:13880元 四班同报:17880元 五班同报20880元
优惠2:提前报名缴费学员+转发到朋友圈或者到学术交流群可享受每人300元优惠(仅限15名)
优惠3:同时报名两个班免费赠送一个学习名额(赠送班任选)
优惠4: 报名五个培训班以上,免费赠送三个培训名额(赠送班任选)
证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人
福利:报名缴费成功赠送报名班型全套预习视频,课后学习完毕提供全程录像视频回放,针对与培训课程内容进行长期答疑,微信解疑群永不解散,参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班(任意一期都可以)
通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高
微信/QQ:766728764
电子邮箱:
m15238680799@163.com
报名电话:15238680799
引用往期参会学员的一句话: