Natur大地震!26岁天才少年连发三篇国际顶刊,打破生信医学百年难题

文摘   2024-12-19 09:01   宁夏  


年终福利大放送

       两大直播课

 一、深度学习基因组学

 二、 机器学习代谢组学


九大视频课免费赠送!即报即学

1、机器学习生物医学免费赠送

2、机器学习微生物组学免费赠送

3、比较基因组学免费赠送

4、机器学习蛋白质组学免费赠送

5、CRISPR-Cas9基因编辑免费赠送

6.机器学习单细胞多组学免费赠送

7.深度学习单细胞组学免费赠送

8.机器学习转录组与表观组免费赠送

9.单细胞空间转录组赠送培训免费赠送


深度学习基因组学


综合不同类型的生物数据对于全面了解癌症生物学至关重要,但由于数据的异质性、复杂性和稀少性,它仍然具有挑战性。针对这一点,我们的研究引入了一个无人监督的深层次学习模型MOSA(多组合成增强),专门设计来集成和增强癌症依赖性图(DEPMAP)。利用正交多组信息,该模型成功地生成了分子和表型谱,使多组谱增加了32.7%,从而生成了1523个癌细胞系的完整德普图。综合增强的数据增加了统计学的力量,揭示了较少研究的耐药性机制,并对癌细胞系的遗传相关性和聚类进行了改进.通过应用沙普利加性解释(Shap)进行模型解释,MOSA揭示了与药物和基因依赖性相关的细胞聚类和生物标记物识别所必需的多组特征。这一认识对于制定急需的有效战略以确定癌症目标的优先次序至关重要

癌症细胞系的分子和表型特征的增长使其成为研究最多的人类细胞模型之一。.这种不断增长和丰富的多组数据继续推动癌症基因的识别和治疗靶点的发现。虽然基因组学一直是癌症预测生物标志物研究的主要重点,但最近由癌症依赖关系图联合会进行的功能性基因筛查显示,不到20%的RNAI癌症依赖性可以通过突变和复制数量改变来解释。.这突出了开发能够垂直集成正交数据集的整体机器学习模型的重要性。在这种情况下,纵向整合不仅涉及基因组学,还涉及其他类型的OMIC数据

深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答 结果进行预测 ,深度学习 ,可以进行预测和降维分析。深度学习模型的能力更强且更灵活, 在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基 因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将 基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据 中自动挖掘数据潜在特征得以实现 ,过去 10 年 ,深度学习在计算机视觉、语音识别、  自然 语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深 度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和 转化医学的进度。,近两年国内外顶尖课题组 MIT、  Harvard University、  UPenn、清华大 学、复旦大学等都在从事深度学习基因组学的研究 ,这一研究成果更是多次发表在 Nature Reviews Genetics 、  Nature Methods 、  Science Advances 、 Cancer Cell 、  Nature、Biotechnology 等知名国际顶刊上 ,为我们发表顶刊鉴定了基础。

主讲老师来自荷兰在读博士陈老师授课。在国内外学术刊物发表论文数篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向主要为染色质三维结构,生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。


01

深度学习基因组学课表




第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理,修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keras,pytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTL,Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

4.复现Enformer,从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNV,DeepCNV

2.RNA-Seq中预测premiRNA,dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具dnnMiRPre,从RNA-Seq中预测premiRNA

3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天

理论部分

深度学习在RNA测序数据中准确鉴别RNA编辑与DNA突变的应用

1.通过深度学习模型DeepDDR高效准确地从单个RNA测序数据中识别RNA编辑和DNA突变

2.介绍DEMINING框架的创新设计和应用

实操内容

1.数据筛选:筛选标准去除转录组数据中的测序和比对错误

2.提取高可信度的RNA编辑位点和相同数量的DNA突变位点,分别用于训练、验证和测试模型

3. 使用多个层次的卷积和池化操作,提取突变位点周围的序列和读段比对特征,增强模型对突变的识别能力

4.识别突变位点,并捕捉到更大范围内突变的上下文信息,以准确区分RNA编辑和DNA突变

5.对识别出的突变进行功能分析,评估其对宿主基因表达的影响,为潜在的疾病机制提供新的见解

6.利用迁移学习将DeepDDR模型应用于非灵长类RNA测序样本,展示其在不同物种中的适用性和有效性



通过课程学习您将得到

深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中

机器学习代谢组学


胃癌(GC)在全球范围内造成了相当大的癌症相关死亡负担,凸显了迫切需要开发早期检测策略和精准术后干预的需求。然而,寻找用于早期诊断和患者风险分层的非侵入性生物标志物仍未得到充分探讨。在这里,我们对来自多个中心参与者的702个血浆样本进行了定向代谢组学分析,以阐明胃癌的代谢重编程。我们的机器学习分析揭示了一个包含10种代谢物的胃癌诊断模型,在外部测试集中经过验证,具有0.905的敏感性,优于利用癌症蛋白标记物的传统方法(敏感性 < 0.40)。此外,我们基于机器学习的预后模型表现出优越的性能,胜过利用临床参数的传统模型,并有效地将患者分层为不同的风险组,以指导精准干预。总的来说,我们的发现揭示了胃癌的代谢景观,并确定了两组不同的生物标志物面板,分别实现了早期诊断和预后预测,从而促进了胃癌中的精准医学。

尽管代谢组学能够测量临床样本中出现的数百种代谢物,但复杂的数据处理和解释仍然是一个挑战。机器学习作为一种广泛使用的人工智能方法,在许多生物医学领域自动分析复杂数据。它在解释-组学数据、开发预测模型、确定生物标志物以及将患者分层进行精准医学方面具有独特优势。然而,在分析GC代谢组学数据并开发潜在生物标志物方面,机器学习的运用尚未充分探索,突显了进一步研究的巨大潜力。

在这项研究中,采用基于液相色谱-质谱联用(LC-MS)的定向代谢组学分析了来自多个中心的GC患者和非GC对照组(NGC)的血浆样本,共702名参与者。利用代谢组学数据开发了一个诊断模型,并在测试集1和测试集2中进行了进一步验证。值得注意的是,这种诊断方法在识别IA期及其他阶段患者方面优于利用癌症蛋白标记物(包括糖类抗原19-9(CA19-9)、癌胚抗原(CEA)等)的传统方法。此外,预后生物标志物面板显示出比采用临床指标的传统方法更高的一致性指数(C-index),表明在预测临床结果方面具有更好的性能。此外,基于模型的患者风险分层可以指导临床决策。总的来说,我们的研究呈现了实证发现,展示了应用机器学习分析代谢组学数据在GC中实现早期检测和精准医学的优势

主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文!

02

机器学习代谢组学课表



第一天上午:

A1 代谢物及代谢组学的发展与应用

1) 代谢与生理过程;

2) 代谢与疾病;

3) 非靶向与靶向代谢组学;

4) 空间代谢组学与质谱成像(MSI);

5) 代谢组学与药物和生物标志物;

6) 代谢流与机制研究。

A2 代谢通路及代谢数据库

1) 几种经典代谢通路简介;2) 三大常见代谢物库:HMDBMETLIN 和 KEGG;

3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights.

A3 参考资料推荐

第一天下午:

A4 代谢组学实验流程简介

A5 色谱、质谱硬件与原理解析

1) 色谱分析原理与构造;

2) 色谱仪和色谱柱的选择;

3) 色谱的流动相:梯度洗脱法;

4) 离子源、质量分析器与质量检测器解析;

5) 质谱分析原理及动画演示;

6) 色谱质谱联用技术(LC-MS);

第二天上午:

B1 代谢物样本处理与抽提

1) 各种组织、血液和体液等样本的提取流程与注意事项;

2) 代谢物抽提流程与注意事项;

3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库

1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;

2) LC-MS 上机过程的数据质控监测和分析;

3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

4) Xcms 软件数据转换、提峰、峰对齐与搜库;

第二天下午:

B3 R 语言基础

1) 和 Rstudio 的安装;

2) Rstudio 的界面配置;

3) 中的基础运算和统计计算;

4) 中的包:包,函数与参数的使用;

5) 语言语法,数据类型与数据结构;

6) 基础画图;

B4 R 语言画图利器——ggplot2 1) ggplot2 简介

2) ggplot2 的画图哲学;

3) ggplot2 的配色系统;

4) ggplot2 数据挖掘与作图实战;

第三天上午:机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

1) 人工智能、机器学习、深度学习的关系;

2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;

3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?

4) VIP score 的意义及选择;

5) 分类算法:决策树,随机森林和贝叶斯网络模型;

C2 一组代谢组学数据的分类算法实现的 演练

(1) 数据解读;

(2) 演练与操作;

第三天下午:

C3 无监督式机器学习在代谢组学数据处理中的应用

1) 大数据处理中的降维;

2) PCA 分析作图;

3) 三种常见的聚类分析:K-means、层次分析与 SOM

4) 热图和 hcluster 图的 语言实现;

C4 一组代谢组学数据的降维与聚类分析的 演练

(1) 数据解析;

(2) 演练与操作;

第四天上午:

D1 在线代谢组分析网页 Metaboanalyst 操作

1) 用 将数据清洗成网页需要的格式;

2) 独立组、配对组和多组的数据格式问题;

3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)

4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;

5) Metaboanalyst 的结果查看和导出;6) Metaboanalyst 的数据编辑;

7) 全流程演练与操作。

第四天下午:

D2 代谢组学数据清洗与 语言进阶

1) 代谢组学中的 tfold-change 和响应值;

2) 数据清洗流程;

3) 语言 tidyverse

4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);

5) 代谢组学数据清洗演练;

第五天上午:

E1 文献数据分析部分复现(篇)

1) 文献深度解读;

2) 实操:从原始数据下载到图片复现;

3) 学员实操。

第五天下午:

E2 机器学习与代谢组学顶刊解读(篇);

1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变

化的小鼠脑组织代谢图谱类的文献;(数据库型)

2) Nature communication 一篇胃癌患者血浆代谢组学使用机器学习得出预测模型用于胃

癌的诊断和预后的文献;(血液生物标志物型)

3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的

文献。(机制研究型)



通过课程学习您将得到

1. 熟悉代谢组学和机器学习相关背景知识以及硬件和软件;

2. 入门 R 语言和机器学习理论和常规使用;

3. 掌握代谢组学从样本处理到上下游数据分析以及出图的全流程;

4. 能复现 CNS 及其子刊级别杂志中代谢组学相关文章中的图片;

5. 能灵活熟练地分析自己的代谢组数据




以下为免费录播课!报名直播课赠送

01

机器学习生物医学赠送培训!

第一天

机器学习及生物医学中应用简介


1. 机器学习及生物医学中应用简介

2.  机器学习基本概念介绍

3.  常用机器学习模型介绍(GLM,BF,SVM)

4.   主成分分析(PCA)

5.  一致性聚类分析

6.  ROC曲线和时间依赖的ROC曲线

7.  生存分析基本概念介绍(生存曲线)

8.  预后模型介绍(单因素,多因素cox回归,lasso回归)

          1.     R语言简介

          1.1   R语言概述

          1.2   R软件及R包安装

          1.3   R语言语法及数据类型

          2.     条件语句

          2.1     循环

          2.2     函数

          3.       常用的机器学习相关的R包介绍


第二天

机器学习在生物医学中的应用案例分享


1.   机器学习在生物医学中的应用案例分享

1.1 利用机器学习方法筛选疾病相关的生物标志物

2.   机器学习+生存分析预测患病风险

2.1  机器学习+生存分析预测患者预后

3.    常用生物医学公共数据库介绍

3.1  TCGA数据库介绍

3.2   TCGA数据库下载RNAseq,miRNA-seq数据

3.3   TCGA临床数据下载

3.4  合并TCGA表达谱数据

4.    GEO数据库介绍

4.1  GEO数据库检索

          4.2  GEO数据下载

第三天

机器学习应用于TCGA公共数据,复现科研文章


   1.   机器学习应用于TCGA公共数据,复现科研文章

1.1  差异表达分析

1.2  主成分分析(PCA)

1.3  火山图,热图绘制

1.4   GO和KEGG富集分析,柱形图,气泡图绘制

2.生存分析,生存曲线绘制

2.1  一致性聚类分析(ConsensusClusterPlus)

2.2   训练集,测试集拆分

3.     R语言简介  

3.1   单因素,多因素cox分析

3.2   Lasso回归分析

4.风险评估模型构建

5.riskscore计算

6.Nomogram模型构建

6.1时间依赖ROC曲线(Time-dependent ROC)

          6.2 矫正曲线,决策曲线绘制

第四天

机器学习应用于GEO公共数据,复现科研文章


1.  机器学习应用于GEO公共数据,复现科研文章

1.1 差异表达分析

1.2 主成分分析(PCA)

1.3 构建预测模型(SVM,RF,GLM)

2.  特征筛选及重要性评估

2.1 模型评估(ROC曲线绘制)

3.  构建nomogram模型

3.1  矫正曲线绘制

3.2  决策曲线绘制

4.  一致性聚类分析

         4.1 GSEA分析


第五天

ceRNA网格构建

1.  miRNA

2.  circRNA

3.  lncRNA的产生,作用机制,功能

4.  miRNA,circRNA,lncRNA相关数据库及工具介绍,使用及数据下载

5.  ceRNA案例分享

实操内容:

1. ceRNA网络构建(实操,基于R)

2. 差异mRNA,lncRNA,miRNA分析

3. 火山图,热图,聚类图,柱状图

4. 差异表达基因GO,KEGG富集分析,气泡图,柱状图,KEGG通路图展示

5. 生存分析,生存曲线绘制

6. mRNA,lncRNA表达相关性分析,相关性散点图

7. mRNA, lncRNA, miRNA网络构建

8. cytoscape展示,hub基因筛选

学员提问及讨论



部分案例图片



                                                                     

可以上下滚动查看 

02

单细胞空间转录组赠送培训!

第一天


单细胞测序技术与应用

理论内容:

1.单细胞组学研究简介

2.单细胞转录组测序技术进展及其原理:1992\2009-至今

3.单细胞多组学和空间转录组技术;

4.单细胞转录组测序技术的常见应用和重要生物学发现;

5.单细胞重大项目及数据库介绍。

实操内容:

1. Linux命令入门讲解及实操训练。

2. R语言简介及安装。

3. R语言简单语法及常见命令。

4. 数据挖掘及其统计应用。

5. R语言实操画图ggplot2为主。

第二天


单细胞转录组数据分析思路及流程以及数据分析实操

理论内容:

1. 单细胞实验介绍,常见建库结构(以10*建库为例)。

2. 单细胞转录组Pipeline软件和代码介绍。

3. 单细胞转录组转录因子及其细胞通讯介绍。

4. 单细胞组学在肿瘤、发育、免疫及其它等领域的研究思路。

实操内容:

1. 10X官方单细胞软件Cellranger讲解及实操。

2.质控基因和细胞。

3.选取高可变基因。

4.降维与分群。

5.Biomarker定义细胞类型。

6.寻找差异基因

7. 通过Seurat 合并多样本及消除样本异质性:

8.通过harmony合并多样本及其消除样本异质性。

第三天

单细胞转录组轨迹、通路、转录因子、hdWGCA等分析绘图实操

实操内容;

1. 通过Monocle软件对单细胞转录组进行拟时序的分析。

2. 对单细胞各个簇进行通路的功能富集分析。

3. 通过GSVA给细胞通路打分等。

4. 利用cellphonedb软件对细胞互作进行分析。

5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(也就是模块)。

6. 全面解析SCENIC软件进行转录因子预测分析。

理论内容:

1. 空间转录组技术的介绍。

2. 空间转录组技术的应用。

3. 空间转录组文章图表的解读。

4. 空间转录组技术在癌症、发育、神经科学等领域的研究思路。

第四天

空间转录组数据比对、降维以及聚类等分析

空间转录组多样本及与单细胞数据关联分析


实操内容:

1. 10x Visium 组织优化及文库制备。

2. 10x Visium官方分析软件Space Ranger讲解及实操。

3. Space Ranger输出结果解读。

4. Loupe Browser软件安装及使用。

5. 通过Seurat软件进行降维、聚类和可视化。

6. 通过Seurat进行基因表达可视化。

理论+实操内容

1. 通过Seurat进行空间变量特征的识别。

2. 与单细胞数据关联分析(空间细胞类型定义)

3. 通过Seurat处理多个切片。

4.单细胞及空间转录组数据分析总结。                                                             

可以上下滚动查看 


03

比较基因组学赠送培训!

  第一天(背景知识)


二代基因组测序技术原理 

三代基因组测序技术原理

Hi-C 技术测序技术原理 

基因组测序策略 

基因组的评估标准 

基因组学的研究进展 

比较基因组学的概念与分析方法 

常用数据库的介绍与使用

Linux 操作系统介绍 Linux 常用命令

第二天

第二天 (基因组组装与注释)

基因组 Survey 分析 

基因组的 de novo 组装 

Hi-C 数据挂载、染色体级别基因组的组装 

基因组组装结果的评估 

重复序列注释 

基因组结构注释之同源注释法 

基因组结构注释之从头注释法 

基因组结构注释之 RNA-seq 法 

ncRNA 注释 

基因组功能注释

第三天

第三天(比较基因组学分析)

基因组数据的准备

蛋白序列比对 

基因家族聚类 Single-copy tree的构建 

物种分歧时间 

基因家族扩张/收缩分析 

基因家族的富集分析 

串联法构建全基因组树

第四天

第四天(比较基因组学分析)

ASTRAL分析

Densitree基因多序列比对

正选择分析 

基因组共线性分析

Circos plot的绘制

SNP calling 

SV的检测与注释 

CNV的检测与注释 

PAV的检测与注释



                                                                     

可以上下滚动查看 


04

机器学习蛋白质组学赠送!


第一天

机器学习及蛋白组学简介

 1.机器学习基本概念介绍

 2.常用机器学习模型介绍

 3.混淆矩阵

 4.ROC曲线

 5.主成分分析(PCA)

 6.蛋白组学基本概念

R语言简介及实操

 1.R语言概述

 2.R软件及R包安装

 3.R语言语法及数据类型

 4.条件语句

 5.循环

 6.函数

 7.常用的机器学习相关R包介绍


第二天

机器学习在蛋白组学数据分析中的应用案例分享

 1.利用机器学习鉴定疾病相关蛋白标志物

 2.利用机器学习基于蛋白组学数据预测表型

 3.利用机器学习基于蛋白组学数据进行分类

 4.利用机器学习基于蛋白组学数据构建预后模型

蛋白组学相关数据库介绍

 1.Uniport

 2.HPA

 3.TCPA

 4.CPTAC

第三天:零代码工具利用机器学习分析蛋白组学数据

利用PLOS Computational Biology(IF:5分)发表零代码工具,轻松完成差异表达分析,常见统计分析,常见可视化,内置7种机器学习方法,轻松调用。

 1.数据导入(两套数据,二分类,多分类)

 2.数据可视化(散点图,热图,柱形图,相关性热图,火山图,层次聚类图)

 3.缺失值填充

 4.数据归一化

 5.离群值检测/清理

 6.常见统计方法应用(t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析)

7.机器学习方法应用(RF, lasso, SVM等)

第四天

利用机器学习基于蛋白组学数据预测表型,基于蛋白组学数据复现cell中机器学习分析结果


实操内容

 1.蛋白组学数据处理,差异表达分析

 2.火山图,多分组热图,多组箱型图展示差异表达分析结果

 3.构建Random Forest模型

 4.重要蛋白筛选

 5.绘制ROC曲线

 6.独立测试集检测模型表现

利用机器学习鉴定疾病相关蛋白标志物,基于Olink数据,复现影响因子17分文章中,蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果

实操内容

 1.读取蛋白表达数据

 2.差异蛋白挑选,火山图绘制,箱型图绘制

 3.时序蛋白表达数据聚类分析

 4.构建随机森林模型

 5.挑选重要特征

 6.独立测试集进行验证




第五天

利用机器学习基于质谱的蛋白质组学数据,构建肝病相关分类和预后模型,复现Nature Medicine文章中的机器学习,生存分析,预后模型相关的结果。


实操内容

 1.鉴定与不同肝病显著相关的蛋白

 2.比较22种不同的机器学习分类器,挑选最优算法构建不同肝病的分类模型

3.独立队列验证模型准确性

 4.构建预后模型

 5.绘制生存曲线和时间依赖的ROC曲线








                                                                     

可以上下滚动查看 


05

机器学习微生物组学赠送!

第一天

机器学习及微生物学简介

1.机器学习基本概念介绍

   2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)

   3. 混淆矩阵

   4. ROC曲线

   5. 主成分分析(PCA)

   6. 微生物学基本概念

   7. 微生物学常用分析介绍

R语言简介及实操

   1.R语言概述

   2.R软件及R包安装

   3.R语言语法及数据类型

   4.条件语句

   5.循环

第二天

机器学习在微生物学中的应用案例分享

1.利用机器学习基于微生物组学数据预测宿主表

   2.利用机器学习基于微生物组学数据预测疾病状态

   3.利用机器学习预测微生物风险

   4.机器学习研究饮食对肠道微生物的影响

微生物学常用分析(实操)

   1. 微生物丰度分析

   2. α-diversity,β-diversity分析

   3. 进化树构建

   4. 降维分析

   5. 基于OTU的差异表达分析,热图,箱型图绘制微生物biomarker鉴定

第三天:(实操)

零代码工具利用机器学习分析微生物组学数据

1. 加载数据及数据归一化

2. 构建训练模型(GLM, RF, SVM)

3. 模型参数优化

4. 模型错误率曲线绘制

5. 混淆矩阵计算

6. 重要特征筛选

7. 模型验证,ROC曲线绘制利用模型进行预测

第四天(实操)

利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)

1. 加载数据(三套数据)

2. 数据归一化

3. OUT特征处理

4. 机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)

5. 5倍交叉验证

6. 绘制ROC 曲线,比较不同机器学习模型模型性能评估

第五天(实操)

利用机器学习预测微生物风险(多分类)


1. 加载数据

2. 机器学习模型构建(RF, gbm, SVM, LogitBoost等等)

3. 10倍交叉验证

4. 模型性能评估

利用机器学习预测刺激前后肠道菌群变化

1. 数据加载及预处理

2. α-diversity,β-diversity分析

3. RF模型构建(比较分别基于OUT,KO,phylum的模型效果)

4. 10倍交叉验证, 留一法验证

5. 特征筛选及重要特征可视化外部数据测试模型









                                                                     

可以上下滚动查看 

06

CRISPR-Cas9基因编辑赠送

第一天

一. 基因编辑工具介绍

1. 基因编辑和转基因是一样的吗?

2. 生活中的基因编辑与转基因产品

3. 基因编辑工具先驱-ZFNs和TALENs

4. 没落的ZFNs和TALENs

5. TALENs,旧工具新用,细胞器编辑利器!

6. 强势崛起的CRISPR系统

7. CRISPR系统家族介绍

8. CRISPR-Cas9的工作原理

9. CRISPR-Cas12的工作原理

10. CRISPR系统的致命缺点

11. 如何选择合适的CRISPR系统?

第二至三天

二. CRISPR系统可以做什么?

1. 基因敲除/基因敲入

i. 基因修复途径介绍(NHEJ和HDR)

ii. Knock-in和Knock-out的简介

iii. Knock-in策略简介(HDR/Retron/双pegRNA策略/GRAND/TJ-PE)                                

2. 多敲系统简介

3. CRISPRa/CRISPRi(基因激活与基因抑制)

i. dCas9-PVPR系统介绍

ii. dCas9-VP64/GI/SAM基因激活系统介绍

iii. 基因编辑招募系统介绍(Suntag/Moontag)

4. CRISPR系统的‘另类’应用(循环打靶)

5. CBE系统的原理及其应用

i. CBE系统进化过程总结(CBEmax/每代优化的元件及策略汇总)

ii. 基因组CBE编辑(植物育种/基因功能研究/临床治疗)

iii. 细胞器CBE编辑工具介绍(Ddda脱氨酶/MutH切口酶)

iv. CBE系统的脱靶效应

6. ABE系统的原理及其应用

i. PACE和PANCE人工定向蛋白进化系统介绍及其他常规的蛋白进化技术

ii. ABE系统的进化过程总结(ABEmax/ABE8e每代优化的元件及策略汇总)

iii. ABE系统的‘另类’应用(基因失活/跳剪/介导C编辑)

iv. 双碱基编辑系统(SWISS/STEME/A&C-BEmax/SPACE/ACBE)

7. PE系统的原理及其应用

i. PE介导精准编辑

ii. 编辑效率的影响因素(骨架二级结构/PBS长度/RTT模板)

iii. 双pegRNA的原理及其应用(基因组大片段插入)

iv. 基因组大片段删除

v. 用于AAV递送的PE系统

8. gGBE的原理及其应用

i. 糖基化酶介绍(为什么可以介导碱基编辑?)

ii. gGBE的开发与应用

iii. gGBE的后续发展预测

9. CRISPR-Case12的病毒检测应用

i. 原理介绍

ii. 应用案例介绍

 

第四天

三. CRISPR载体构建(实操)

1. 敲除/碱基编辑载体构建

i. 工具介绍

ii. 如何查看质粒图谱

iii. 基因靶点的选择(CRISPR-GE等线上工具展示)

iv. sgRNA的引物设计

v. 模拟构建(酶切载体/构建体系讲解)

vi. 菌落PCR

vii. 测序鉴定结果分析

2. PE系统的载体构建

i. 引物设计工具的应用

ii. 载体构建演示

iii. 测序结果分析

3. 转染阳性检测

4. 测序原理及结果查看

i. 一代测序原理

ii. Hi-TOM高通量测序

 

 

第五天

四. 基因编辑在植物种的应用

1. 基因功能研究

2. 创制新品种

五. 基因编辑在临床上的应用

1. 碱基编辑的临床应用

2. PE系统的临床应用

3. 递送系统的介绍

六. 基因编辑在微生物中的应用

1. 微生物遗传学研究

2. 生物技术(可产生生物燃料/生物塑料/药物等有用的化合物)

七. 机器学习在基因编辑领域的应用

1. 基因编辑结果的预测

2. 编辑效率影响因素的探索

3.基因编辑辅助工具的开发                                                                                                








                                                                     

可以上下滚动查看 


07

机器学习转录组学赠送

第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R(4.1.3)和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下载

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选,疾病预测

组学数据可视化

实操内容

Linux操作系统

Linux操作系统的安装与设置

网络配置与服务进程管理

Linux的远程登录管理

常用的Linux命令

在Linux下获取基因数据

利用Linux探索基因组区域

Shell script与Vim编辑器

基因组文件下载与上传

Linux权限管理

文件的身份

修改文件的所有者和所属组

修改文件权限

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处理和质量控制

序列比对和对齐评估

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

表观遗传学的基本概念和技术介绍

DNA甲基化和组蛋白修饰的分析方法

表观组数据的预处理和质量控制

差异甲基化和差异修饰分析

甲基化和修饰的功能注释和富集分析

甲基化数据的整合分析和基因调控网络构建

表观组数据的可视化方法和工具

介绍其他表观组学技术(如染色质构象捕获)

实操内容

测序数据质量控制和检查

数据比对和多匹配问题

计算结合峰位置

IGV中组学结果可视化

差异peaks分析

结合程度矩阵计算

富集热图和曲线图绘制

第五天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

理论部分

基因功能注释和富集分析

WGCNA(Weighted Gene Co-expression Network Analysis)网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析 









                                                                     

可以上下滚动查看 

08

深度学习单细胞赠送

第一天

理论内容

1.单细胞组学研究简介(包含单细胞转录组测序技术进展及其原 )

2.单细胞主要数据库介绍

2.1 CellMarker

2.2 CancerSEA

2.3 Tabula Muris

2.4 TISCH

3.单细组学在肿瘤、发育、免疫及其它领域的研究思路的介绍 4.单细胞测序分析在科研中的应用

4.1 bulk 测序相较的优势

4.2 发现新细胞类型

4.3 识别细胞亚群的转录差异

4.4 细胞互作预测

内容

1.R语言基础

1.1 文件读入

1.2 数值、字符串、向量

1.3 列表 矩阵数据框

2.数据清洗

2.1缺失值处理

2.2数据筛选

2.3数据合并

2.4数据匹配

2.5分类变量

2.6条件函数

2.7 字符串的切分

2.8重复值处理

3.R 语言基础绘图

3.1 箱式图

3.2小提琴图

3.3 热图

第二天

理论内容

1.Seurat对象

2.细胞质控

2.1 nFeature

2.2 nCount

2.3 percent.mt

3.特征选择

3.1高变基因

3.2 FindVariableFeatures

4.降维聚类

4.1 tsne

4.2 umap

4.线性降维 PCA

内容

1.数据读入

1.1 10x 数据读入

1.2 csv 数据读入

1.3 txt 数据读入

2. 多数据的整合

2.1直接法

2.2 harmony

3.质控

4.一化

5.聚类

6.tSNE/UMAP降维

7.细胞类型注释

7.1自动注释法

7.2 marker人工注释法

8.细胞比例计算

9.基因集打分

9.1 ssGSEA

9.2 AUCell

10.单细胞 GSVA富集分析

11.单细胞GSEA富集分析

第三天

理论内容

1.IF6+文献解读

2.单细胞常见图表解读

2.1降维聚类图

2.2marker气泡图/小提琴图

2.3细胞通讯图

3.集分析

3.1 基因 ID

3.2弦表图

3.3 和弦图

4.细胞通讯基本原理

5.反卷积

5.1系数表

5.2 bulk 转录组矩阵

实操内容( IF6+文献文献为例)

1.单细胞差异基因分析并绘制火山图

2.GO/KEGG富集分析并绘制气泡图、柱状图、弦表图 

3.iTALK分析不同细胞的通讯情况

4.Cibersortx

4.1单细胞数据处理

4.2 bulk 数据

4.3推测 bulk 数据新细胞类型的比例)

第四天

理论内容

1.深度学习入门

1.1基本概念

1.2 常用方

1.3科研应用

2.LASSO的原理和作用

2.1正则化

2.2惩罚参数

2.3变量收缩

3.Randomforest的原理和作用

3.1 Bagging思想

3.2 OOB error

3.3 Bagging 框架参数(n_estimatorsoob_scorecriterion)

3.4决策树参数

4.SVM的原理和作用

4.1最大间隔超平面

4.2支持向量

4.3SVM优化问题

5.ROC曲线的原理和作用

5.1二分类

5.2 true negativefalsenegative

5.3 true positivetruenegative

内容

1.LASSO的应用

1.1 lambda 选择

1.2 特征选择

2.Randomforest的应用

2.1 error 

2.2气泡图

2.棒棒糖图

3.SVM的应用

4.ROC 曲线的应用

第五天

理论内容

1.深度学习结合单细胞的应

1.1 细胞亚群

1.2特征基因筛选

1.3 基因后续验证的科研思路

2.解析深度学习结合单细胞的文献(IF8+)

3.LASSO与单细胞联合

4.Randomforest与单细胞联合

5. SVM-RFE与单细胞联合

5.1支持向量机

5.2递归消除

6.工神经网络 ANN 与单细胞联合

6.1 人工和生物神经网络之间的相似性

6.2 神经元模型

6.3 神经网络模型

6.4 前馈神经网

6.5反馈神经网络

6.6 M-P 模型

6.7 neuralnet

实操内 (IF8+文献为例)

1.单细胞分析(包括数据读取、聚类降维、细胞注释等) 

2.LASSO筛选特征基因并构建预后模型              

3.生存曲线检验预后模型的效果

4.cox 森林图验证风险评分是否有临床意义

5.列线表

6.免疫治疗 TIDE 与风险评分的分析

7.免疫浸润分析风险评分与免疫微环境的关系

8.neuralnet 的基础案例实操

9.ANN 的单细胞特征基因筛选      









                                                                     

可以上下滚动查看 

09

机器学习单细胞多组学赠送

第一天

理论部分

1.单细胞测序原理

2.单细胞测序基础

3.单细胞测序方法及数据

4.单细胞数据分析流程

实操内容

1.R语言基础

2.R(4.1.3)和Rstudio的安装

3.R包安装和环境搭建

4.数据结构和数据类型

5.R语言基本函数

6.数据下载

7.数据读入与输出

第二天

理论部分

1.机器学习概述

2.线性模型

3.决策树

4.支持向量机

5.集成学习

6.模型选择与性能优化

实操内容

1.决策树算法实现

2.随机森林算法实现

3.支持向量机(SVM)算法实现

4.朴素贝叶斯算法实现

5.Xgboost算法实现

6.主成分分析PCA算法实现

7.聚类算法实现

8.DBSCAN算法实现

9.层次聚类算法实现

第三天

理论部分

1.多组学基础

2.常用生物组学实验与分析方法

3.常用组学数据库介绍

4.批量处理组学数据

5.生物功能分析

6.基于转录组学的差异基因筛选,疾病预测

7.基于差异基因联合多组学分析疾病发生机制

8.组学数据可视化

实操内容

1.Linux操作系统

2.Linux操作系统的安装与设置

3.网络配置与服务进程管理

4.Linux的远程登录管理

5.常用的Linux命令

6.在Linux下获取基因数据

7.利用Linux 探索基因组区域

8.Shell script与Vim编辑器

9.基因组文件下载与上传

10.Linux权限管理

11.文件的身份

12.修改文件的所有者和所属组

13.修改文件权限

第四天

理论部分

1.单细胞分析中的常见机器学习方法

2.降维聚类的机器学习算法

3.分群注释的机器学习算法

4.单细胞分析中常见的深度学习方法

5.降维聚类的深度学习算法

6.分群注释的深度学习算法

实操内容

1.Python语言基础

2.python安装与开发环境的搭建

3.基本数据类型组合数据类型

4.分析环境搭建

5.Jupyter notebook的使用

6.函数、列表、元组、字典、集合

7.控制结构、循环结构

8.Numpy模块——矩阵的科学计算

9.Matplotlib模块——数据处理与绘图

10.Pandas模块——csv数据处理与分析

11.Sklearn模块——机器学习模型基础软件包调用

第五天

理论部分

1.机器学习在单细胞分析中的应用

2.收集数据

3.数据准备

4.选择一个模型

5.模型训练

6.模型评估

7.参数调整

8.模型预测

实操内容

1.创建Seurat对象

2.数据质控

3.测序深度差异及标准化

4.单细胞数据降维

5.批次效应去除

6.数据整合

7.亚群注释

8.GSVA通路活性分析

9.单细胞富集分析

第六天

理论部分

1.深度学习在单细胞分析中的应用

2卷积神经网络基本构成

3.卷积核

4.循环神经网络基本构成

5.循环核

6.图神经网络基本构成

实操内容

1.卷积神经网络在单细胞分析的算法实现

2.循环神经网络在单细胞分析的算法实现

3.图神经网络在单细胞中分析的算法实现

4.单细胞数据的自动注释

5.单细胞数据分析聚类与批量效应

6.单细胞测序数据进行聚类

7.加权图神经网络的细胞类型注释方法

8.单细胞表达数据中深度学习基因关系









                                                                     

可以上下滚动查看 

授课时间

#01-深度学习基因组学


2024.12.28--2024.12.29(09:00--11:30  -13:30--17:00)

2025.01.02-2025.01.03(19:00-22:00)

2025.01.04-2025.01.05(19:00-22:00)

2025.01.11--2025.01.12(09:00--11:30  -13:30--17:00)


#02-机器学习代谢组学


2025.01.04-2025.01.05(09:00--11:30  -13:30--17:00)

2025.01.07-2025.01.10(19:00-22:00)

2025.01.11--2025.01.12(19:00-22:00)


年终培训费用超值福利

0

课程报名费用:

深度学习基因组学、机器学习代谢组学、

公费价:每人每班¥4980元 (含报名费、培训费、资料费、提供课后全程回放资料

重磅优惠:

优惠1:4980元

报一送二(报名一个直播课可以赠送两个视频回放课)

优惠2:9880

报二送五:(报名两个直播课可以赠送五个视频回放课)


2

2

                                      培训特色及福利







1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答


授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!


  腾讯会议实时直播解答|手把手带着操作




报名咨询方式(请二维码扫描下方微信)






 

   联系人:何老师

              联系电话:17698066380 ( 微信同号)

              

引用往期参会学员的一句话:

发现真的是脚踏实地的同时 需要偶尔仰望星空非常感谢各位对我们培训的认可!祝愿各位心想事成

科研后花园
专注于R语言绘图及数据分析!
 最新文章