纯生信入门干货,小白就该这么学!

学术   2023-05-16 09:00   陕西  

       深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现,过去10年,深度学习在计算机视觉、语音识别、自然语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和转化医学的进度。近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology 等知名国际顶刊上,为我们发表顶刊奠定了基础  

         细胞生物学的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行学习、建模,很好的解决了数据不足的问题。同样在最近的研究中,机器学习方法使用单细胞数据进行扰动建模也推动了细胞生物领域前进。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化。整个过程需要对干预工具的构建、导入、实验观察,从而得出表型结论。扰动建模的目的就是想要通过数学模型的建立,通过对已有数据的分析、归纳和总结,对一个分子的功能在没有实验时做出预判,对于生物学家和药物研发者来讲,好的模型一定能够帮助加深对生物机制的理解,推动药物的研发进程 

      代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。  

       随着高通量组学平台的发展,极大了促进了生物医学领域的发展,使得人们能够从基因组学,转录组学,蛋白组学,代谢组学等各个维度进行深入的研究。一切生命的表现形式,本质上都是蛋白质功能的体现。如果我们能够了解细胞、组织乃至整个生命体内蛋白质的组成及其活动规律,理解不同组织器官在不同生理病理状态下蛋白质组的构成和动态变化,就会对疾病的发生、发展、转归等过程有一个全面的认识,把握疾病诊治的关键,提高药物开发的效率。在高通量测序和多组学的快速发展下,无论是基因组学、表观组学、转录组学、宏基因组学还是蛋白质组学、代谢组学,都已经积累了非常庞大的数据,数据的大量增加需要更高效更强大的分析工具才能更好的对海量的组学数据进行深度挖掘,然而传统的信息数据处理算法显然不能满足大数据的处理要求,机器学习作为可以从数据中进行学习的算法,在组学数据分析和挖掘,如对疾病亚型识别、 生物标志物发现、 通路分析以及药物发现及其再利用有着更广泛的前景和应用空间。

       自然微生物综述( IF:31.851)于2018年在线发表了微生物组领域的研究方法综述,不仅系统总结了过去,更为未来3-5年内本领域研究方法的选择,提供了清晰的技术路线,让大家做出更好的研究,微生物组学研究主要涉及两方面技术:测序技术和数据分析技术,随着基因测序技术的进步和测序成本不断下降,大样本量的微生物组学研究激增。传统的统计方法已经不再适用于极度高维、稀疏的微生物组数据分析,而适用于复杂数据分析的机器学习逐渐成为微生物组学数据分析的首选方法。机器学习已被证明是分析微生物群落数据并对特定结果进行预测(包括人类和环境健康)的有效方法,基于微生物群落数据的机器学习已被成功用于预测人类健康中的疾病状态、环境质量和环境中污染的存在,并可以作为法医学中的微量证据。机器学习算法已经在肠道微生物、微生物组数组表型、环境微生物、微生物生态学、皮肤微生物、土壤微生物、植物微生物、人体微生物等领域应用广泛,通过查阅文献发现近几年机器学习在微生物组研究发刊分值都很高,特别是在Nature Communications、Advanced Materials(IF=30.849)、Water Research Nature Microbiology、Environment International 、Nature Methods、Cell Regeneration、JAIMS等期刊多次发表!

由于该项研究资料和学习平台较少,信息技术不公开,培训学习迫在眉睫,特此诚挚邀请您参加“深度学习基因组学+机器学习蛋白质组学+机器学习代谢组学专题线上培训


一、培训对象

全国各大高校、企业、科研院所从事人工智能、生命科学、代谢工程、有机合成、抗体工程、酶工程、天然产物、蛋白质、药物、生物信息学、植物学,动物学、食品、化学化工,医学、疾病、机器学习、基因组学、农业科学、植物学、动物学,临床医学、食品科学与工程、植物基因组、动物传染病、肿瘤免疫与靶向治疗、 全基因组泛癌分析、人黏连蛋白折叠基因组机、有机合成、生物化学、病毒检测、高通量测序、分子生物学、功能基因组、遗传图谱、基因挖掘变异、代谢组学、蛋白质组学、转录组学、生物医学、转化研究、蛋白质、癌症、核酸、毒物学研究、生物信息、生物计算、生命科学、生态、肿瘤、遗传、基因改造、细胞分化、微生物、生物医学大数据分析与挖掘、数学类专业、计算机科学、医学、疾病等研究的科研人员以及人工智能爱好者 。


二、培训目标(完全适合零基础

熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

通过对机器学习在蛋白组学中的应用案例分享,让学员能够掌握机器学习分析蛋白组学的流(tao)程(lu),了解常用机器学习算法的原理及蛋白组学理论知识。通过实操,复现高分SCI文章中机器学习结果,让学员能够熟悉相关软件和工具的使用,并且学以致用到自己的课题中。

   本课程适于对深度学习、基因组学、转录组学、蛋白组学、药物基因组学等多组学分析感兴趣的学员。课程通过基础入门+应用案例实操演练的方式,从初学及应用研究的角度出发,带大家实战演练多种深度学习模型(深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN、可变自动编码器VAE、图卷积神经网络GCN)通过对这些深度学习在基因组学中的应用案例进行深度讲解和实操,让学员能够掌握深度学习分析高维基因组学、转录组学、蛋白组学等多组学数据流程,系统学习深度学习及基因组学理论知识及熟悉软件代码实操,熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。

助力学员发表Nature、Science、Cell等正刊及子刊杂志!(在生信分析的新技术加持下,用更少的经费,发更高质量的文章)


三、培训特色

 

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答


四、主讲老师


     刘老师,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,出版医学实用教材《Python医学实战分析》,发表SCI论文22篇,其中一作及并列一作9篇。

机器学习蛋白组学主讲老师来自国内高校李老师授课,有十余年的蛋白质组数据分析经验。研究领域涉及机器学习,芯片数据分析,蛋白质组数据分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析等,发表SCI论文30余篇,其中一作及并列一作15篇。

机器学习代谢组学主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

机器学习微生物组学主讲老师来自国内高校李老师授课,有十余年的微生物组数据分析经验。研究领域涉及机器学习,芯片数据分析,微生物组数据分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析等,发表SCI论文30余篇,其中一作及并列一作15篇。

主讲老师来自国内高校陈老师和张老师授课。在国内外学术刊物发表论文数篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向为生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等。

深度学习基因组学专题


第一天 深度学习算法介绍


理论内容:

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型


第二天 基因组学基础


理论内容:

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1. 安装并介绍深度学习工具包tensorflow, keras,pytorch

2. 在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4.深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序


第三天 卷积神经网络CNN在基因调控预测中的应用


理论内容

1.Chip-Seq中识别基序特征G4,如DeepG4

2.Chip-Seq中预测DNA甲基化,DeepSEA

3.Chip-Seq中预测转录调控因子结合,DeepSEA

4.DNase-seq中预测染色体亲和性,Basset

5.DNase-seq中预测基因表达eQTL,Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变

3.复现Basset,从Chip-Seq中预测染色体亲和性

复现Enformer,从Chip-Seq中预测基因表达eQT


第四天 深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用


理论内容

1.SNP微阵列中预测拷贝数变异CNV,DeepCNV

2.RNA-Seq中预测premiRNA,dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质,DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA

复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质


第五天 深度学习在识别及疾病表型及生物标志物上的应用


理论内容

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型

复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因


第六天 深度学习在预测药物反应机制上的应用


理论部分

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1. 预处理药物分子结构信息

2. 计算药物相似性

3. 在不同数据集上构建self-attention SWnet

4. 评估self-attention SWnet

5. 构建多任务的SWnet

6. 构建单层SWnet

7. 构建带权值层的SWnet

部分案例图片





机器学习单细胞分析应用专题


第一天


理论内容:

1.单细胞测序原理

2.单细胞测序基础

3.单细胞测序方法及数据

4.单细胞数据分析流程

实操内容

1.R语言基础

2.R(4.1.3)和Rstudio的安装

3.R包安装和环境搭建

4.数据结构和数据类型

5.R语言基本函数

6.数据下载

7.数据读入与输出


第二天


理论内容

1.机器学习概述

2.线性模型

3.决策树

4.支持向量机

5.集成学习

6.模型选择与性能优化

实操内容

1.决策树算法实现

2.随机森林算法实现

3.支持向量机(SVM)算法实现

4.朴素贝叶斯算法实现

5.Xgboost算法实现

6.主成分分析PCA算法实现

7.聚类算法实现

8.DBSCAN算法实现

9.层次聚类算法实现


第三天


理论内容

1.多组学基础

2.常用生物组学实验与分析方法

3.常用组学数据库介绍

4.批量处理组学数据

5.生物功能分析

6.基于转录组学的差异基因筛选,疾病预测

7.基于差异基因联合多组学分析疾病发生机制

8.组学数据可视化

实操内容

1 .Linux操作系统

2.Linux操作系统的安装与设置

3.网络配置与服务进程管理

4.Linux的远程登录管理

5.常用的Linux命令

6.在Linux下获取基因数据

7.利用Linux 探索基因组区域

8.Shell script与Vim编辑器

9.基因组文件下载与上传

10.Linux权限管理

11.文件的身份

12.修改文件的所有者和所属组

13.修改文件权


第四天


理论内容

1.单细胞分析中的常见机器学习方法

2.降维聚类的机器学习算法

3.分群注释的机器学习算法

4.单细胞分析中常见的深度学习方法

5.降维聚类的深度学习算法

6.分群注释的深度学习算法

实操内容

1.Python语言基础

2.python安装与开发环境的搭建

3.基本数据类型组合数据类型

4.分析环境搭建

5.Jupyter notebook的使用

6.函数、列表、元组、字典、集合

7.控制结构、循环结构

8.Numpy模块 ——矩阵的科学计算

9.Matplotlib模块——数据处理与绘图

10.Pandas模块——csv数据处理与分析

11.Sklearn模块——机器学习模型基础软件包调用


第五天


理论部分

1.机器学习在单细胞分析中的应用

2.收集数据

3.数据准备

4.选择一个模型

5. 模型训练

6.模型评估

7.参数调整

8.模型预测

实操内容

1.创建Seurat对象

2.数据质控

3.测序深度差异及标准化

4. 单细胞数据降维

5.批次效应去除

6.数据整合

7.亚群注释

8.GSVA通路活性分析

9.单细胞富集分析


第六天


理论部分

1.深度学习在单细胞分析中的应用

2.卷积神经网络基本构成

3.卷积核

4.循环神经网络基本构成

5.循环核

6.图神经网络基本构成

实操内容

1.卷积神经网络在单细胞分析的算法实现

2.循环神经网络在单细胞分析的算法实现

3.图神经网络在单细胞中分析的算法实现

4.单细胞数据的自动注释

5.单细胞数据分析聚类与批量效应

6.单细胞测序数据进行聚类

7.加权图神经网络的细胞类型注释方法

8.单细胞表达数据中深度学习基因关系

案例图片




单细胞空间转录组专题


第一天


进入单细胞分析所必备的R语言基础

理论内容:

1. 高通量测序原理简介

2. 数据挖掘及其统计应用的简介

3. R语言数据清洁整理与ggplot2的简介

实操内容:

1. Linux命令入门讲解及实操训练。

2. R语言软件介绍与实操

3. R语言基础语法及其常见命令

4. 清洁数据实操与ggplot2绘图简单训练


第二天


单细胞转录组数据分析思路流程及数据实操

理论内容:

1. 单细胞组学研究简介(包含单细胞转录组测序技术进展及其原理)

2. 单细胞多组学简要介绍

3. 单细胞转录组测序技术的常见应用和重要的生物学问题的探索

4. 单细胞主要数据库介绍

5. 单细胞实验介绍、常见的建库结构(以10*建库为例)

6. 单细胞转录组Cellranger上游Pipeline软件代码介绍

7. 单细组学在肿瘤、发育、免疫及其它领域的研究思路的介绍

实操内容:

1. 10X官方单细胞软件Cellranger的讲解;

2. 质控基因和细胞;

3. 选取高可变基因;

4. 降维与分群;

5. Biomarker定义细胞类型;

6. 寻找差异基因;

6. 通过Seurat 合并多样本及消除样本异质性;

7. 通过harmony合并多样本及其消除样本异质性;

8. 通过GSEA对单细胞各个簇进行通路的功能富集分析。


第三天


理论内容:

1. 单细胞转录因子(SCENIC)及其细胞通讯(Cellchart)的介绍

2. 单细胞拟时分析的简介

3. 利用AUCell对单细胞进行基因集打分的简介

4. 结合bulk WGCNA讲解单细胞scWGCNA的原理

实操内容:

1. 通过Monocle2软件对单细胞转录组进行拟时序的分析;

2. 利用AUCell的算法对单细胞进行基因集打分的实操

4. 利用cellchart软件对细胞互作进行分析。

5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(这里统一指模块分析)。

6. 全面解析SCENIC软件进行转录因子预测分析。


第四天


1. 空间转录组技术的介绍。

2. 空间转录组技术的应用。

3. 空间转录组文章图表的解读。

4. 空间转录组技术在癌症、发育、神经科学等领域的研究思路。

5. 空间转录组数据比对、降维以及聚类等分析

实操内容:

1. 10x Visium 组织优化及文库制备;

2. 10x Visium官方分析软件Space Ranger讲解及实操;

3. Space Ranger输出结果解读;

4. Loupe Browser软件安装及使用;

5. 通过Seurat软件进行降维、聚类和可视化;

6. 通过Seurat进行基因表达可视化。

理论+实操内容

1. 通过Seurat进行空间变量特征的识别;

2. 与单细胞数据关联分析(空间细胞类型定义);

3. 通过Seurat处理多个切片;

4. 单细胞及空间转录组数据分析总结。

机器学习代谢组学


第一天


A1 代谢物及代谢组学的发展与应用

(1) 代谢生理功能;

(2) 代谢疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢流与机制研究;

(6) 代谢组学与药物和生物标志物。

A2 代谢组学实验流程简介

A3 色谱、质谱硬件原理

(1) 色谱分析原理;

(2) 色谱的气相、液相和固相;

(3) 色谱仪和色谱柱的选择;

(4) 质谱分析原理及动画演示;

(5) 正、负离子电离模式;

(6) 色谱质谱联用技术;

(7) LC-MS 的液相系统

A4 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 能量代谢通路;

(3) 三大常见代谢物库:HMDB、METLIN 和 KEGG;

(4) 代谢组学原始数据库:Metabolomics Workbench 和Metabolights.


第二天


B1 代谢物样本处理与抽提

(1) 组织、血液和体液样本的提取流程与注意事项;

(2) 用 ACN 抽提代谢物的流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库

(1) LC-MS 实验过程中 QC 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) XCMS 软件数据转换与提峰;

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 的基本数据结构和语法;

(4) 下载与加载包;

(5) 函数调用和 debug;

B4 ggplot2

(1) 安装并使用 ggplot2

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 画组合图和火山图;


第三天


机器学习

C1 无监督式机器学习在代谢组学数据处理中的应用

(1) 大数据处理中的降维;

(2) PCA 分析作图;

(3) 三种常见的聚类分析:K-means、层次分析与 SOM

(4) 热图和 hcluster 图的 R 语言实现;

C2 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析;

(2) 演练与操作;

C3 有监督式机器学习在代谢组学数据处理中的应用

(1) 数据用 PCA 降维处理后仍然无法找到差异怎么办?

(2) PLS-DA 找出最可能影响差异的代谢物;

(3) VIP score 和 coef 的意义及选择;

(4) 分类算法:支持向量机,随机森林

C4 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读;

(2) 演练与操作;


第四天


D1 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse

(4) R 语言正则表达式;

(5) 代谢组学数据过滤;

(6) 代谢组学数据 Scaling 原理与 R 实现;

(7) 代谢组学数据的 Normalization;

(8) 代谢组学数据清洗演练;

D2 在线代谢组分析网页 Metaboanalyst 操作

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 的 pipeline 和注意事项;

(4) Metaboanalyst 的结果查看和导出;

(5) Metaboanalyst 的数据编辑;

(6) 全流程演练与操作


第五天


E1 机器学习与代谢组学顶刊解读(2-3 篇);

(1) Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;

(2) Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;

(3) 1-2 篇代谢组学与转录组学和蛋白组学结合的文献。

E2 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

部分案例图片




机器学习蛋白组学


第一天


机器学习及蛋白组学简介

1.机器学习基本概念介绍

2.常用机器学习模型介绍

3.混淆矩阵

4.ROC曲线

5.主成分分析(PCA)

6.蛋白组学基本概念

R语言简介及实操

1.R语言概述

2.R软件及R包安装

3.R语言语法及数据类型

4.条件语句

5.循环

6.函数

7.常用的机器学习相关R包介绍


第二天


机器学习在蛋白组学数据分析中的应用案例分享

1.利用机器学习鉴定疾病相关蛋白标志物

2.利用机器学习基于蛋白组学数据预测表型

3.利用机器学习基于蛋白组学数据进行分类

4.利用机器学习基于蛋白组学数据构建预后模型

蛋白组学相关数据库介绍

1.Uniport

2.HPA

3.TCPA

4.CPTAC


第三天


零代码工具利用机器学习分析蛋白组学数据

利用PLOS Computational Biology(IF:5分)发表零代码工具,轻松完成差异表达分析,常见统计分析,常见可视化,内置7种机器学习方法,轻松调用。

1.数据导入(两套数据,二分类,多分类)

2.数据可视化(散点图,热图,柱形图,相关性热图,火山图,层次聚类图)

3.缺失值填充

4.数据归一化

5.离群值检测/清理

6.常见统计方法应用(t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析)

7.机器学习方法应用(RF, lasso, SVM等)


第四天


利用机器学习基于蛋白组学数据预测表型,基于蛋白组学数据复现cell中机器学习分析结果

实操内容

1.蛋白组学数据处理,差异表达分析

2.火山图,多分组热图,多组箱型图展示差异表达分析结果

3.构建Random Forest模型

4.重要蛋白筛选

5.绘制ROC曲线

6.独立测试集检测模型表现

利用机器学习鉴定疾病相关蛋白标志物,基于Olink数据,复现影响因子17分文章中,蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果

实操内容

1.读取蛋白表达数据

2.差异蛋白挑选,火山图绘制,箱型图绘制

3.时序蛋白表达数据聚类分析

4.构建随机森林模型

5.挑选重要特征

6.独立测试集进行验证


第五天


利用机器学习基于质谱的蛋白质组学数据,构建肝病相关分类和预后模型,复现Nature Medicine文章中的机器学习,生存分析,预后模型相关的结果。

实操内容

1.鉴定与不同肝病显著相关的蛋白

2.比较22种不同的机器学习分类器,挑选最优算法构建不同肝病的分类模型

3.独立队列验证模型准确性

4.构建预后模型

5.绘制生存曲线和时间依赖的ROC曲线

部分案例图片:

蛋白差异表达分析热图



蛋白差异表达分析火山图

 



蛋白差异表达箱型图

 

机器学习模型构建,特征筛选,模型评估(ROC曲线)

 

时序蛋白表达聚类分析

时间依赖ROC曲线



机器学习微生物

第一天


机器学习及微生物学简介

1. 机器学习基本概念介绍

 2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)

 3. 混淆矩阵

 4. ROC曲线

 5. 主成分分析(PCA)

 6. 微生物学基本概念

 7. 微生物学常用分析介绍

R语言简介及实操

 1.R语言概述

 2.R软件及R包安装

 3.R语言语法及数据类型

4.条件语句

 5.循环

第二天

机器学习在微生物学中的应用案例分享

1.利用机器学习基于微生物组学数据预测宿主表

 2.利用机器学习基于微生物组学数据预测疾病状态

 3.利用机器学习预测微生物风险

 4.机器学习研究饮食对肠道微生物的影响

微生物学常用分析(实操)

 1. 微生物丰度分析

 2. α-diversity,β-diversity分析

 3. 进化树构建

 4. 降维分析

 5. 基于OTU的差异表达分析,热图,箱型图绘制微生物biomarker鉴定

第三天(实操)

零代码工具利用机器学习分析微生物组学数据

  1. 加载数据及数据归一化

 2. 构建训练模型(GLM, RF, SVM)

 3. 模型参数优化

 4. 模型错误率曲线绘制

 5. 混淆矩阵计算

 6. 重要特征筛选

 7. 模型验证,ROC曲线绘制利用模型进行预测

第四天(实操)

利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)

1. 加载数据(三套数据)

 2. 数据归一化

 3. OUT特征处理

 4. 机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)

 5. 5倍交叉验证

 6. 绘制ROC 曲线,比较不同机器学习模型模型性能评估

第五天(实操)

利用机器学习预测微生物风险(多分类)

1.加载数据

2.机器学习模型构建(RF, gbm, SVM, LogitBoost等等)

3.10倍交叉验证

4.模型性能评估

利用机器学习预测刺激前后肠道菌群变化

1.数据加载及预处理

2.α-diversity,β-diversity分析

3. RF模型构建(比较分别基于OUT,KO,phylum的模型效果)

4.10倍交叉验证, 留一法验证

5.特征筛选及重要特征可视化外部数据测试模型


案例图片



五、授课时间地

深度学习基因组学

2023.06.10----2023.06.11全天授课(上午09.00-11.30下午13.30-17.00)

2023.06.12----2023.06.13晚上授课(晚上19.00-22.00)2023.06.17----2023.06.18全天授课(上午09.00-11.30下午13.30-17.00)

2023.06.19----2023.06.20晚上授课(晚上19.00-22.00)机器学习蛋白质组学

2023.07.1----2023.07.2全天授课(上午09.00-11.30下午13.30-17.00)

2023.07.4----2023.07.5晚上授课(晚上19.00-22.00)

2023.07.8-----2023.07.9全天授课(上午09.00-11.30下午13.30-17.00)

机器学习代谢组学

2023.06.10----2023.06.11全天授课(上午09.00-11.30下午13.30-17.00)

2023.06.13----2023.06.14晚上授课(晚上19.00-22.00)2023.06.17----2023.06.18全天授课(上午09.00-11.30下午13.30-17.00)

机器学习单细胞培训时间:

2023.6.10 -----2023.6.11全天授课(上午09.00-11.30下午13.30-17.00)2023.6.17-----2023.6.18全天授课(上午09.00-11.30下午13.30-17.00)2023.6.25全天授课(上午09.00-11.30下午13.30-17.00)

2023.7.1全天授课(上午09.00-11.30下午13.30-17.00)单细胞空间转录组培训时间

2023.6.17-----2023.6.18全天授课(上午09.00-11.30下午13.30-17.00)2023.6.20-----2023.6.21晚上授课(晚上19.00-22.00)

2023.6.25全天授课(上午09.00-11.30下午13.30-17.00)机器学习微生物培训时间

2023.06.16晚上授课(晚上19.00-22.00)

2023.06.17---2023.06.18全天授课(上午09.00-11.30下午13.30-17.00

)+2023.06.19----2023.06.20晚上授课(晚上19.00-22.00)

2023.06.26- -2023.06.28晚上授课(晚上19.00-22.00)


六、联系方式



联系人:袁老师                                         电话/微信:18737171433

邮箱:y18737171433@163.com                  QQ: 1228930623


报名费用

单细胞空间转录组、机器学习代谢组学、机器学习蛋白组学、机器学习微生物

公费价:每人每班¥4680元 (含报名费、培训费、资料费)

自费价:每人每班¥4280元 (含报名费、培训费、资料费)

深度学习基因组学、机器学习单细胞 

公费价:每人每班¥5880元 (含报名费、培训费、资料费)

自费价:每人每班¥5480元 (含报名费、培训费、资料费)


优惠1:两班同报:9880元 三班同报:13880元     四班同报:17880元           五班同报:20880

优惠2:提前报名缴费学员+转发到朋友圈或者到学术交流群可享受每人300元优惠(仅限15名)

优惠3:同时报名两个班免费赠送一个学习名额(赠送班任选)

优惠4: 报名五个培训班以上,免费赠送三个培训名额(赠送班任选)


注:本公司举办有生信六大专题“深度学习基因组学+机器学习单细胞分析+单细胞空间转录组+机器学习蛋白质组学+机器学习微生物组学+机器学习代谢组学专题线上培训”药物两大专题“CADD计算机辅助药物设计+AIDD人工智能药物发现专题线上培训”详情请咨询招生老师


证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人)


八、培训福利

报名缴费成功赠送报名班型全套预习视频,课后学习完毕提供全程录像视频回放,针对与培训课程内容进行长期答疑,微信解疑群永不解散,参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班(任意一期都可以)


九、授课方式


通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高,而且我们保证二次学习是免费的。

往期学员参会单位及报名流程


国外院系高校;有来自麻省理工大学、University of Bristol (布里斯托大学)、加州伯克利大学、Osaka University(大版大学)、乔治梅森大学、加州理工大学、曼彻斯特大学 、莱斯大学、波士顿大学、德州农工大学、德雷克大学、美国联合大学、普林斯顿大学、斯坦福大学、Imperial College London、KAUSTuniversity、理海大学、TheUniversityofQueensland、澳大利亚昆士兰大学、耶鲁大学、牛津大学、剑桥大学、匹兹堡大学、悉尼大学、多伦多大学、西雅图华盛顿大学、伦敦大学、杜克大学、东京大学、哥伦比亚大学、康奈尔大学、纽约大学、西北大学、布朗大学、华盛顿大学

国内院系高校;有来自中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)、中山大学、北京大学第一医院、中国医学科学院北京协和医院、西北民族大学、西南大学、山东大学、加州伯克利大学、启元实验室、中国人民解放军总医院第一医学中心、河南师范大学、南京工业大学、南方科技大学、南京大学、中国医学科学院基础医学研究所、青海省农林科学院、天津中医药大学第一附属医院、山东大学、黑龙江八一农垦大学、南昌大学第二附属医院、台州市中心医院(台州学院附属医院)、宁波大学附属人民医院、新疆农业大学、北京林业大学、广西医科大学、湖南文理学院、滨州医学院、滨州医学院烟台附属医院、华南师范大学、中国环境科学研究院、云南师范大学、昆明理工大学、湖北医药学院、苏州大学、福州大学、南方医院、南昌大学第二附属医院、深圳市中医院、湖南文理学院、河南科技学院、福建省立医院、中南大学湘雅医院、深圳市中医院、省立同德医院、内蒙古科技大学包头师范学院、乌鲁木齐市疾病预防控制中心、中国林业科学研究院林业研究所、中国农业科学院兰州畜牧与兽药研究所、鲁东大学、河北工程大学、南方医科大学珠江医院、首都医科大学附属北京妇产医院、重庆医科大学附属第二医院、北京普利智诚生物技术有限公司、复旦大学上海医学院、陕西中医药大学附属医院、中国医学科学院血液病医院(中国医学科学院血液学研究所)、滨州康达欣医疗器械有限公司、深圳北京大学香港科技大学医学中心、天津市肿瘤医院、陆军特色医学中心、空军军医大学第一附属医院、江南大学、中国科学院深圳先进技术研究院、中国科学院上海营养与健康研究所、北京阅众时刻文化传媒有限公司、北京慧康健怡医疗器械有限公司、杭州奥明基因科技有限公司、亦欣生物科技无锡有限公司、广州市肖悦生物科技有限公司、张家口泽涵生物科技有限公司、平安科技。感谢对我们培训的认可!还有许多因为时间冲突无法参加。这次我们诚挚邀请您来参加!

引用本次参会学员的一句话:

发现真的是脚踏实地的同时 需要偶尔仰望星空

非常感谢各位对我们培训的认可!祝愿各位心想事成!

Bioinfor 生信云
分享生信小工具,以及各种测序分析专题,期待有志之士的加入!