绝绝子!R语言不愧是绘图的“神”!生信小白掌握最新R语言技术,分分钟完成逆袭!

文摘   2024-07-10 09:00   宁夏  


R语言具有强大的数据分析处理和可视化绘图功能,可以在Window、Linux以及Mac系统上使用,并且根据其编写新代码或调整已有代码可轻松实现科研中数据呈现与图形绘制的要求.然而其代码学习较为艰难、R-package使用复杂,所以未受到科研新手的青睐.基于生物科学相关领域的背景,整理汇集已出版的文献、公共数据库以及国家统计局中提供的数据,使用R语言、R编辑器RStudio并载入相关的R-package绘制出地图、热图、关联网络图、韦恩图和柱形图等高质量的图片,并提供相应的脚本与说明,以方便生物科研人员直接更改使用.本研究对生物科研中合理、直观地表述研究结果提供了良好的范例,并进行了详细讨论,且与其他绘图软件作了比较,以期R语言能够成为生物科学领域科研工作者入门学习、研究应用中绘制图片的首选工具



01

机器学习代谢组学

02

机器学习微生物组学

03

深度学习基因组学

04

CRISPR-Cas9基因编辑技术

05

单细胞测序及空间多组学

06

深度学习蛋白质设计

07

CADD计算机辅助药物设计

08

AIDD人工智能药物发现与设计


以下为内容介绍

WORK OVERVIEW

01

机器学习代谢组学

                           内容可向下滑动                        

第一天

A1 代谢物及代谢组学的发展与应用

(1) 代谢与生理过程;

(2) 代谢与疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢组学与药物和生物标志物;

(6) 代谢流与机制研究。

A2 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;                                

(2) 三大常见代谢物库:HMDB、METLIN 和 KEGG; 

(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights.

A3 参考资料推荐

A4 代谢组学实验流程简介 

A5 色谱、质谱硬件与原理解析

(1) 色谱分析原理与构造;

(2) 色谱仪和色谱柱的选择;

(3) 色谱的流动相:梯度洗脱法;

(4) 离子源质量分析器与质量检测器解析;

(5) 质谱分析原理及动画演示;

(6) 色谱质谱联用技术(LC-MS);


第二天

B1 代谢物样本处理与抽提

(1) 各种组织、血液和体液等样本的提取流程与注意事项;

(2) 代谢物抽提流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库 

(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

(4) Xcms 软件数据转换、提峰、峰对齐与搜库;

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 中的基础运算和统计计算;

(4) R 中的包:包,函数与参数的使用;

(5) R 语言语法,数据类型与数据结构;

(6) R 基础画图;

B4 ggplot2 

(1) ggplot2 简介

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 数据挖掘与作图实战;


第三天

机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

(1) 人工智能、机器学习、深度学习的关系;

(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;

(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?

(4) VIP score 的意义及选择;

(5) 分类算法:决策树,随机森林和贝叶斯网络模型;

C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读;

(2) 演练与操作;

C3 无监督式机器学习在代谢组学数据处理中的应用 

(1) 大数据处理中的降维;

(2) PCA 分析作图;

(3) 三种常见的聚类分析:K-means、层次分析与 SOM

(4) 热图和 hcluster 图的 R 语言实现;

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析;

(2) 演练与操作;


第四天

D1 在线代谢组分析网页 Metaboanalyst 操作 

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库) (4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;

(5) Metaboanalyst 的结果查看和导出;

(6) Metaboanalyst 的数据编辑;

(7) 全流程演练与操作。

D2 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse;

(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);

(5) 代谢组学数据清洗演练;


第五天

E1 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

E2 机器学习与代谢组学顶刊解读(3 篇);

(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变 化的小鼠脑组织代谢图谱类的文献;(数据库型)

(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物 的文献;(生物标志物型) 

(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的 文献。(机制研究型)

部分模型案例图片


02

机器学习微生物组学

                           内容可向下滑动

第一天

1.微生物学基础知识回顾

2.机器学习基本概念介绍

    a.什么是机器学习

    b.监督学习、无监督学习

    c.常用机器学习模型介绍

3.混淆矩阵

4.ROC曲线


第二天

R语言简介与实操

1. R语言概述

2. R studio软件与R包安装

3. R语言语法及数据类型

4. 条件语句和循环

Linux实操

1. Linux操作系统

2. Linux操作系统的安装与设置

3. 网络配置与服务进程管理

4. Linux的远程登录管理

5. 常用的Linux命令

6. 在Linux下获取基因数据

7. Shell script与Vim编辑器下·


第三天

微生物组常用分析方法(实操)

1. 微生物丰度分析

2. 转录组丰度分析

3. 进化树分析

4. 降维分析


第四天

机器学习在微生物组学中的应用案例分享

1. 疾病预测应用:利用机器学习基于微生物组学数据预测疾病状态

2. 肠道菌群研究:机器学习研究饮食对肠道微生物的影响


第五天


机器学习模型训练和分析(实操)

1. 加载数据及数据归一化

2. 构建训练模型(GLM, RF, SVM)

3. 模型参数优化

4. 模型错误率曲线绘制

5. 混淆矩阵计算

6. 重要特征筛选

7. 模型验证,ROC曲线绘制利用模型进行预测

利用机器学习基于微生物组学数据预测宿主表型

1. 加载数据

2. 数据归一化

3. OUT特征处理

4. 机器学习模型构建(RF, KNN, SVM, Lasso等多种机器学习方法)

5. 绘制ROC 曲线,比较不同机器学习模型模型性能评估

利用机器学习基于临床特征和肠道菌群预测疾病风险

1. 加载数据

2. 机器学习模型构建(RF, gbm, SVM等等)

3. 交叉验证

4.模型性能评估

部分模型案例图片

03

深度学习基因组学

                           内容可向下滑动

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型


第二天

基因组学基础

1. 基因组数据库

2. 表观基因组

3. 转录基因组

4.蛋白质组

5. 功能基因组

实操内容

基因组常用深度学习框架

1. 安装并介绍深度学习工具包tensorflow, keras,pytorch 

2. 在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等


第三天

微生物组常用分析方法(实操)

1. 微生物丰度分析

2. 转录组丰度分析

3. 进化树分析

4. 降维分析


第四天

理论部分

深度学习在识别拷贝数变异DeepCNV

1. SNP微阵列中预测拷贝数变异CNV,DeepCNV

2. RNA-Seq中预测premiRNA,dnnMiRPre

实操内容

1. 复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA


第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1. 从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型


第六天

理论部分

深度学习在预测药物反应机制上的应用

1. 联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1. 预处理药物分子结构信息

2. 计算药物相似性

3. 在不同数据集上构建self-attention SWnet

4. 评估self-attention SWnet

5. 构建多任务的SWnet

6. 构建单层SWnet

7. 构建带权值层的SWnet

部分模型案例图片

04

CRISPR-Cas9基因编辑

                           内容可向下滑动

第一天

基因编辑简介

1.基因编辑基本概念介绍

2.使用单基因遗传病数据库 (实操)

3. 5524种单基因遗传病的发病率及对应基因

4.使用网站查找突变位点周围碱基 选择基因编辑工具(实操)

5.基因编辑历史

6.TALEN

7.Zinc finger

8.Base editor

9.Prime editor


第二天

1.如何选择正确Cas9蛋白类型

2.单碱基编辑(base editor) gRNA设计和软件(实操)

3.sgRNA修饰

4.手动设计PegRNA的八个要点(实操)

5.七种PegRNA辅助设计软件

6. 查找不同PAM的Cas9的碱基序列

7. 设计Cas9 mRNA及其体外转录所需的DNA

8. 如何设计深度测序(NSG)所需的引物

9. 如何准备深度测序(NGS)所需样品

10. Sleeping beauty

11. PiggyBac

12. 肽核酸Peptide nucleic acids

13. 外显子跳读Exon skipping

14. 介绍CRISPR knock out库 (GeCKO v2.0)

15. 简单介绍Base editing在微生物中的应用


第三天

1.AAV递送(组织靶向)

2.脂质体递送

3.核糖核蛋白递送

4.高分子递送

5.Viral like particles递送

6.外泌体递送

7.无机纳米粒递送

8. 电转

9. 超声

10. 显微注射

11. PAM高通量筛选的6篇文章

12. Cas9-DNA-gRNA晶体结构

13.单基因遗传病细胞订制

14.单基因遗传病动物模型定制


第四天

1.动物模型

2.质粒

3.分子克隆基础

4.AAV设计(实操)

5.Base editing文章分析

6.Prime editing 相关的140篇文章概览

7.如何提高Prime editing效率

8.Prime editing 相关的87篇研究文章概览

9.如何提高Prime editing效率

10.NGS引物设计

11.NGS测序结果分析



第五天

1.基因编辑已经批准的药物

2. 临床试验

3.主要公司、科学家和专利

4.副作用和退市的产品

5.FDA政策

6.CRISPR在诊断中的应用

7.CRISPR library

8.CRISPR与单细胞测序

9. CRISPR与表观遗传学

10. CIRPSR在植物学中的应用

11. CRISPR在微生物学中的应用

12. NGS类型及原理

13. 3个基因序列的数据库(涵植物基因)

14. 2023年BE和PE领域热点

15. 设计课题与评价(实操)

---------------------------------------------------------------------------------------------------------

05

单细胞测序及空间多组学

                           内容可向下滑动

第⼀天
⽣信基础培训 basics of bioinforma,c
• 什么是单细胞测序技术(以 10X 为例 )?单细胞测序技术的应⽤。
• Command line 基础知识,什么是 command line?
• Command line 的基本语法
• Shell scripts
• 如何在 HPC (high performance cluster)上提交作业

第⼆天
 基础知识与单细胞数据分析⼯具的准备
• R and RStudio 的安装
• 常⽤ 包的安装
• 单细胞相关的 和 RStudio 环境准备,及相应包的安装
• Seurat, ggplot2 等常⽤包的语法介绍

第三天
单细胞基础理论知识与质控分析 
• 单细胞实验设计
• 单细胞数据产⽣
• Cellranger 的使⽤以及结果⽂件的解析
• 单细胞数据的读写,质量图谱解析
• 单细胞数据质控参数的选择与质控分析
• 质控后单细胞数据质量图谱展示及结果分析

第四天
单细胞数据下游分析 I
• 单细胞数据标准化过程以及降维分析
• 单细胞数据的 ScMransforma5on 分析
• 标准化后的单细胞数据的聚类分析
• Doublet 检测
• 细胞注释

第五天
单细胞数据下游分析 II
• 样品间的基因表达差异分析
• 富集分析
• Marker genes 识别
• 不同批次数据的整合分析
• 实际案例解析
• 其他下游数据分析 (依时间⽽定)

06

深度学习蛋白质设计

                           内容可向下滑动                        

第一天

1. 深度学习在蛋白质设计中的重要性

1.1概述深度学习的基本概念

  什么是深度学习

  神经网络基本概念

  深度学习的历史与发展

1.2深度学习在生物信息学中的应用

  在基因组学、生物元件改造、蛋白质设计等方向中的应用举例

2. 蛋白质结构和功能的基本概念

2.1蛋白质的一级到四级结构

  氨基酸序列、二级结构、三级结构、四级结构

2.2结构与功能的关系

  结构决定功能的原则 (Anfinsen's Principle)

  具体的蛋白质功能举例

2.3 重要的蛋白质数据库介绍

  蛋白质序列数据库

  蛋白质结构数据库(PDB数据库等)

2.4 蛋白质的数据表示介绍

  蛋白质序列表示

  蛋白质结构表示(包含实践示范:使用BioPython,Pymol等进行蛋白质结构操作)

第一天下午

1. 深度学习基础知识介绍

1.1神经网络简介

  神经网络的基本组成

  前向传播与反向传播

1.2常用深度学习算法(卷积神经网络、递归神经网络等)

  卷积神经网络(CNN)

  递归神经网络(RNN)

  长短期记忆网络(LSTM)

  Transformer结构

  扩散模型(Diffusion Model)

2. 深度学习工具与框架

2.1 TensorFlow框架

  TensorFlow的基本概念介绍

2.2 PyTorch框架(重点)

  PyTorch的基本概念

  PyTorch的基本使用方法(包含实践示范:使用Pytorch搭建神经网络)


第二天

1. 蛋白质序列分析相关介绍

1.1序列比对工具与方法

  BLAST、Clustal Omega等工具介绍(包含实践示范:如何使用这些工具)

  多序列比对MSA的重要性

  基于数学或深度学习的蛋白质序列相似度分析方法(包含实践示范:序列特征提取方法示范)

1.2 深度学习在蛋白质序列分类中的应用

  自动特征提取

  蛋白质家族分类

  蛋白质功能分类

2. 蛋白质大语言模型介绍(重点)

2.1 语言模型介绍

  什么是自然语言处理NLP?

  什么是大语言模型

2.2 生物中的语言模型

  序列语言模型kmer2vec,DNABert(包含实践示范:简单训练一个蛋白质序列的kmer2vec模型)

 

ESM蛋白质大语言模型

ProGen大模型

第二天下午

1. 具体介绍自然语言处理NLP的各种知识

1.1 词嵌入

  One-hot embedding

  Word2vec embedding

  Glove embedding

语言大模型embedding

1.2 深度学习常用的loss介绍

2. 深度学习模型优化技巧

2.1模型评估与优化方法

  评估指标:准确率、召回率、F1分数等

  优化方法:正则化、Dropout等

2.2 超参数调优

  超参数对于模型的影响

  网格搜索、随机搜索


第三天

1. 蛋白质设计的基本概念

1.1蛋白质工程与设计的概述

  蛋白质工程的历史

  蛋白质设计的方法

1.2蛋白质设计的挑战与机遇

  设计新功能蛋白质的挑战

  蛋白质设计的应用前景

2. 蛋白质设计的中心法则介绍

2.1 正向中心法则

2.2 逆向中心法则

第三天下午

1. 深度学习在蛋白质结构预测中的应用(重点)

1.1 蛋白质结构预测的发展过程

  David Baker的研究工作总结

  蛋白质三维坐标与蛋白质内坐标的转换方法

1.2 AlphaFold及其影响

  AlphaFold 2的工作原理

  OpenFold代码介绍

  AlphaFold 3和AlphaFold 2的区别(包含实践示范:如何使用AlphaFold 3大模型开源服务器进行蛋白质结构预测以及相互作用预测)

RoseTTAFold All-Atom大模型的介绍

ESMFold大模型的介绍


第四天

1. 蛋白质功能预测之深度学习在药物发现中的应用

1.1深度学习与药物设计概述

  深度学习在药物设计中的重要性

1.2蛋白质-小分子相互作用预测

  各种前沿预测方法与模型的介绍

  大模型如何在这一领域发挥作用

2. 蛋白质功能预测之蛋白质-蛋白质相互作用

2.1模型选择与训练

  不同模型的特点介绍

2.2预测结果的评估与解释

  评估指标与方法

2.3 点突变后的蛋白质-蛋白质相互作用介绍

  新冠病毒预测中深度学习模型发挥作用举例

第四天下午

1. 蛋白质功能预测之蛋白质-核酸相互作用

1.1 蛋白质与DNA相互作用任务

1.2 蛋白质与RNA相互作用任务

1.2模型选择与训练

  不同模型的特点介绍

  大模型如何在这一领域发挥作用

2. 分子对接与深度学习结合

2.1分子对接的基本概念

  分子对接的原理

  经典分子对接软件工具介绍(包含实践示范:如何使用各种分子对接软件工具,如AutoDock等,并使用Pymol等进行对接结果展示)

2.2 分子对接中的挑战

  计算复杂性的挑战

2.3深度学习在分子对接中的应用

  新方法、新工具的介绍

  结合深度学习提高对接效率


第五天

1. 多肽与蛋白质相互作用设计

1.1多肽设计的基本概念

  多肽的特点与设计方法

1.2深度学习在多肽设计中的应用

  应用案例分析

2. 逆向中心法则之从功能推导结构

2.1 蛋白质功能基序的划分

2.2 从功能推导所需序列的方法介绍

第五天下午

1. 逆向中心法则之从零开始设计结构

2. 逆向中心法则之设计序列以明确结构和功能

3. 总结与展望

3.1   深度学习在蛋白质设计中的未来发展

  未来发展趋势

  蛋白质foundation model的影响(包含实践示范:如何应用foundation model,如何在foundation model的基础上设计下游任务)

3.2课程总结与回顾

  课程内容的回顾与总结

4. Q&A环节

07

CADD计算机辅助药物设计

                           内容可向下滑动

第一天

导论与基础

1. 蛋白质三维结构的预测对于药物发现的重要性

1.1 同源建模

1.2 从头建模

2. 蛋白质(酶/靶点)活性位点在药物发现的重要性

3. 药物发现中的关键结构特征(特别是小分子)

4. 药物辅助发现常用的计算方法

4.1 分子对接

4.2 虚拟筛选

4.3 分子动力学模拟

4.4 其他

PDB数据库的介绍

1.1 检索蛋白

1.2 页面功能及解读

1.3 数据的下载

1.4 PDB文件格式的解读

2. PyMol

2.1 软件介绍

2.2 基本操作介绍

2.3 蛋白及小分子表面图、静电势表示

2.4 绘制相互作用图及制作简单动画


第二天

同源建模

1. 同源建模原理介绍

1.1 同源建模的功能及使用场景

1.2 同源建模的方法

2. Swiss-Model 同源建模;

2.1 同源蛋白的搜索(blast等方法)

2.2 蛋白序列比对

2.3 蛋白模板选择

2.4 蛋白模型搭建

2.5 模型评价(蛋白拉曼图)

2.6 蛋白模型优化                       

实例讲解与练习:用2019-nCoV spike蛋白序列建模,根据相应参数和方法评价模型

小分子构建

1. ChemDraw软件介绍

1.1 小分子结构构建

1.2 小分子理化性质(如分子量、clogP等)计算

1.3 分别构建大环、氨基酸、DNA、RNA等分子

小分子化合物库

2 小分子数据库

2.1 DrugBank、ZINC、ChEMBL等数据库介绍及使用

2.2 天然产物、中药成分数据库介绍及使用


第三天

分子对接基础

1.1 分子对接原理

1.2 分子对接分类

1.3 分子对接打分函数

2. 常规分子对接实践

2.1 对接的执行

2.1.1 药物分子配体的准备

2.1.2 蛋白受体的准备

2.1.3 受体格点计算

2.1.3 执行半柔性对接

对接结果评价

1.2.1 晶体结构构象进行对比

1.2.2 能量角度评价对接结果

1.2.3 聚类分析评价对接结果

1.2.4 最优结合构象的选择

2 对接其他方式的实现


第四天

1 柔性对接

1.1 小分子配体优化准备

1.2 蛋白受体的准备

1.3 柔性残基的定义

1.4 蛋白受体格点计算

1.5 柔性对接计算及结果评价

1.6 半柔性对接与柔性对接比较与选择

2 柔性对接其他方式的实现

下午

基于受体的药物发现

1 虚拟筛选的准备

1.1 小分子文件的不同格式

1.2 openbabel最实用功能的介绍

1.3 小分子不同格式的转化

2. 基于对接的虚拟筛选

2.1 虚拟筛选定义、流程构建及演示

2.2 靶点蛋白选择、化合物库获取

2.3 虚拟筛选

2.4 结果分析(打分值、能量及相互作用分析)


第五天

上午

一些特殊的分子对接

1.小分子-小分子对接

1.1小分子-小分子相互作用简介

1.2小分子结构预处理

1.3小分子-小分子对接(糖-小分子为例)

1.4对接结果展示与分析

2. 蛋白-核酸对接

3. 蛋白-蛋白对接

下午

基于配体的药物发现

1. 3D-QSAR模型构建(Sybyl软件)

1.1 小分子构建

1.2 创建小分子数据库

1.3 小分子加电荷及能量优化

1.4 分子活性构象确定及叠合

1.5 创建3D-QSAR模型

1.6 CoMFA和CoMSIA模型构建

1.7 测试集验证模型

1.8 模型参数分析

1.9 模型等势图分析

1.10 3D-QSAR模型指导药物设计


第六天

上午

1. linux系统介绍

2.常用命令介绍

3. linux上程序的安装(gromacs)

下午

MD实践一:溶剂化下蛋白质分子动力学模拟

全面熟悉分子动力学模拟的一般流程


第七天

上午

MD实践二:溶剂化下蛋白质-配体的分子动力学模拟

掌握处理非标准残基的力场拟合

下午

分子动力学模拟中的常用分析命令

蛋白-配体结合自由能的结算

部分模型案例图片

08

AIDD人工智能药物发现与设计

                           内容可向下滑动

第一天


1     人工智能药物发现(AIDD)简介

2     机器学习和深度学习在药物发现领域的应用

2.1  分子属性预测与优化

2.2  虚拟筛选

2.3  药物副作用预测与安全性评估

2.4  新药分子设计

3     工具介绍与安装

3.1  Anaconda3/Pycharm 安装

3.2  Numpy 基础

3.3  Pandas 基础

3.4  Matplotlib 基础

3.5  Scikit-learn 基础

3.6  Pytorch 基础

3.7  RDKit 基础


第二天

1     机器学习简介

1.1     机器学习四要素

1.2     数据模块

1.3     核心和高级 API

2     回归算法与应用

2.1     线性回归

2.2     Lasso 回归

2.3     Ridge 回归

2.4     ElasticNset 弹性网络

3     分类算法与应用

3.1     逻辑回归

3.2     朴素贝叶斯

3.3     KNN

3.4     SVC

3.5     决策树

3.6     随机森林

3.7     集成学习

4     聚类算法

4.1     KMeans

4.2     密度聚类 DBSCAN

5     降维

5.1     奇异值分解 SVD

5.2     主成分分析 PCA

5.3     非负矩阵分解 NMF

6     模型的评估方法和评价指标

6.1     超参数优化

6.2     交叉验证

6.3     评价指标

7     特征工程

8     机器学习药物发现案例(一)

——化合物生物活性分类模型

9     机器学习药物发现案例(二)

——化合物生物活性回归模型

10   机器学习药物发现案例(三)

—— 药物副作用预测模型

图1. 副作用在药物-药物相似性网络中传播。


第三天

1     深度学习与药物发现( 一)

1.1  深度神经网络

1.2  正向和反向传播

1.3  优化方法

1.3.1  梯度下降增加动力

1.3.2   自适应学习

1.3.3  Adam

1.4  损失函数

1.4.1  平均绝对误差

1.4.2  均方误差损失函数

1.4.3  交叉熵损失函数

1.5  卷积神经网络

1.5.1  卷积层

1.5.2  填充和步幅

1.5.3  池化层

1.5.4  LeNet 网络

1.5.5  AlexNet 网络

2     深度学习药物发现案例(一)

—— 药物-药物相互作用预测模型

 2. 利用药物关联网络特征和深度神经网络识别药物之间潜在相互作用事件。


第四天

1     深度学习与药物发现( 二)

1.1  循环神经网络

1.2  消息传递神经网络

1.3   图卷积神经网络

1.4   图注意力神经网络

1.5   图采样和聚合

2     深度学习药物发现案例(二)

—— 药物靶标相互作用预测模型

3     深度学习药物发现案例(三)

—— 药物重定位模型

第五天

1     深度学习与药物发现 (三)

1.1  注意力机制

1.2   自注意力模型

1.3  多头自注意力模型

1.4  交叉注意力模型

1.5  Transformer 模型

2     深度学习药物发现案例(四)

—— 药物-药物相互作用预测模型

3     深度学习药物发现案例(五)

—— 药物靶标结合亲和力预测模型

 4.将药物和蛋白质信息关联起来的带有注意力区块的AttentionDTA模型

学习目标

深度学习蛋白质设计

这一课程旨在为学生提供深度学习与蛋白质设计领域的全面知识。通过讲授深度学习的基本概念和前沿技术,学生将理解深度学习在生物信息学特别是蛋白质设计中的具体应用。学生将了解如何使用主流深度学习框架PyTorch进行模型构建与优化,并通过实践操作掌握蛋白质结构预测、蛋白质功能预测和分子对接等关键技术。课程将介绍AlphaFold等先进模型,并探讨其在药物发现中的重要性。同时通过多肽设计、逆向中心法则等专题,学生将全面了解从功能推导结构和从零开始设计蛋白质的策略。

CADD计算机辅助药物设计

掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分     子动力学全程实操、溶剂化分子动力学模拟

AIDD人工智能药物发现与设计

本课程让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力

深度学习基因组学

深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中。

机器学习代谢组学

熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

机器学习微生物组学

课程将涵盖机器学习技术在微生物数据分析中的应用,包括基因组序列分析、基因调控网络构建和多组学数据整合等,并带领学员们深度使用R语言,Python语言实地操作演示。

CRISPR-Cas9基因编辑

课程从全局出发,由浅入深,课程通过基础入门+应用案例实操演练的方式,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。能够快速运用到自己的科研项目和课题上。

单细胞测序及空间多组学

本课程聚焦单细胞测序技术, 以 10x 为例,通过讲解单细胞测序技术原理及应⽤,单细胞测序技术的产⽣,数据的质控,分析。通过实例分析深⼊学习基本⽣物信息分析的基本⼯具,常规⽣物信息领域的数据格式解读与分析,单细胞测序数据的分析与出图。经过本课程学习,学员将有能⼒独⽴任何类型的单细胞数据。并将结果应⽤于相应的学术⽂章的发表以及指导实际临床研究。

讲师介绍


深度学习蛋白质设计

授课老师来自清华大学,科研上致力于计算生物学及生物信息学研究,主要关注深度学习方法(特别是大模型)在生物医学中的应用。除了在清华大学的科研工作外曾在斯坦福大学进行过深度学习预测蛋白质-DNA结合的工作,也曾参与微软研究院蛋白质-小分子大模型相关研究。以第一作者/共同一作在SCI期刊发表研究论文数篇,还曾担任Plos Computational Biology等国际知名期刊的审稿人。

CADD计算机辅助药物设计

主讲老师来自国内高校、中科院等单位,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究

AIDD人工智能药物发现与设计

授课老师余老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物靶标识别,药物不良反应等。参与了国自然基金2项,主持了省厅级科研项目3项。一作身份发表SCI论文数篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

深度学习基因组学

主讲老师刘老师,生物信息学PI,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,发表SCI论文23篇,论著一部。

机器学习代谢组学

主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

机器学习微生物组学

主讲老师来自清华大学博士,研究方向包括生物信息学、机器学习与微生物基因组学,大模型与蛋白质定向进化等。同时他在图神经网络和疾病药物靶向等知识图谱技术方面有丰富的经验,带领并指导多次团队在国际基因工程竞赛(iGEM)中获得国际金牌,并一作发表了多篇一区高水平SCI论文。

CRISPR-Cas9基因编辑技术

主讲老师来自加州大学生物医学工程专业博士,曾在麻省理工和哈佛大学从事基因编辑研究,在耶鲁大学从事基因递送工作。文章发表在Nature Biomedical Engineering, Nature Communications等杂志上。曾在天使投资机构工作,主要投资基因编辑、单细胞测序、AI制药等方向的创业公司。

单细胞测序及空间多组学

主讲⽼师陈⽼师,加州⼤学戴维斯分校⽣物信息学领域博⼠,加州⼤学旧⾦⼭分校⽣物信息学博后。⽬前在知名⽣物公司从事⽣物信息分析。具有多年的微⽣物全基因组,微⽣物遗传抗病分析,肿瘤遗传变异分析(soma5c muta5ons and germline muta5ons),单细胞以及空间转录组学数据分析等,并开发了检测肿瘤样品 CNVs。以第⼀或共同作者发表⽂章在 Genome Biology, Cell 等知名期刊。


授课时间及地点

深度学习蛋白质设计

2024.07.13-2024.07.14全天授课(上午900-1130下午1330-17002024.07.15-2024.07.16晚上授课(晚1900—2200)          2024.07.20-2024.07.21全天授课(上午900-1130下午1330-1700

腾讯会议直播形式

CADD计算机辅助药物设计

2024.07.20-2024.07.21全天授课(上午900-1130下午1330-17002024.07.23-2024.07.26晚上授课(晚1900—2200

2024.07.27-2024.07.28全天授课(上午900-1130下午1330-1700

2024.07.29-2024.07.30晚上授课(晚1900—2200

腾讯会议直播形式

AIDD人工智能药物发现与设计

2024.07.13-2024.07.14全天授课(上午900-1130下午1330-17002024.07.15-2024.07.16晚上授课(晚1900—2200)            2024.07.20-2024.07.21全天授课(上午900-1130下午1330-1700

讯会议直播形式

深度学习基因组学

2024.07.20-2024.07.21全天授课(上午900-1130下午1330-17002024,07.27-2024.07.28全天授课(上午900-1130下午1330-17002024,08.03-2024.08.04全天授课(上午900-1130下午1330-1700

讯会议直播形式

机器学习代谢组学

2024.07.20-2024.07.21全天授课(上午900-1130下午1330-17002024.07.23-2024.07.24晚上授课(晚1900—2200

2024.07.27-2024.07.28全天授课(上午900-1130下午1330-1700

讯会议直播形式

机器学习微生物组学

2024.07.13-2024.07.14全天授课(上午900-1130下午1330-17002024.07.15-2024.07.16晚上授课(晚1900—2200)            2024.07.20-2024.07.21全天授课(上午900-1130下午1330-1700

讯会议直播形式

CRISPR-Cas9基因编辑

2024.07.13-2024.07.14全天授课(上午900-1130下午1330-17002024,07.20-2024.07.21全天授课(上午900-1130下午1330-17002024,07.27全天授课(上午900-1130下午1330-1700

讯会议直播形式

单细胞测序及空间多组学

2024.07.20-2024.07.21全天授课(上午900-1130下午1330-17002024,07.27-2024.07.28全天授课(上午900-1130下午1330-17002024,08.03全天授课(上午900-1130下午1330-1700

讯会议直播形式


课程费用

  深度学习蛋白质设计

每人每班公费价:6380元

每人每班自费价:5880元

CADD计算机辅助药物设计;AIDD人工智能药物发现;深度学习基因组学;机器学习代谢组学;机器学习微生物;CRISPR-Cas9基因编辑;单细胞测序及空间多组学

每人每班公费价:5880

每人每班自费价:5480

报名福利

优惠一:报二赠一10880元(原价17140,可任选三门课学习)

优惠二:报四赠二18880元(原价35280,可任选六门课学习)

特惠:全部报名25880元(两年内可免费学习本公司举办的任何课程,不限次数)

早鸟福利:转发朋友圈或转发50人以上群聊即可获得300元现金红包(只限前15名)

报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销 

报名缴费后即可获得全套预习资料供大家课前准备

结业证书:参加培训并通过考试的学员,可以获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,需另行缴纳考试费500元/人)

SIMPLICITY

官方联系人





联系人:汪老师


报名咨询电话:13140113821

往期学员好评




科研后花园
专注于R语言绘图及数据分析!
 最新文章