惊人操作!农大博士再发Nature PIants,植物微生物领域将被他改写,太强了!

学术   2024-09-05 14:40   法国  

火爆全球的重大进展

深度学习是一种人工智能技术,它通过模拟人类大脑中的神经网络来解决复杂的问题。深度学习已经应用于各个领域,包括图像识别、自然语言处理、语音识别等。在生物信息学领域,深度学习也发挥着重要作用,例如基因表达谱分析、结构生物学预测、生物信息学数据集预处理等。

在生物信息学中,深度学习主要应用于以下几个方面:

1.基因表达谱分析:通过对基因表达谱数据进行深度学习,可以预测基因功能、发现新的生物标志物和生物路径径。

2.结构生物学预测:通过对结构生物学数据进行深度学习,可以预测蛋白质结构、功能和互动。

3.生物信息学数据集预处理:通过对生物信息学数据集进行深度学习,可以提高数据质量、减少噪声和缺失值,从而提高预测模型的准确性。


或许你还记得轰动一时的AlphaFold2!

谷歌DeepMind又有重磅研究了!AlphaFold 3一经推出,就登上Nature头版。从此,人类冲破「蛋白质宇宙」,所有生物分子结构都可以预测了!这次使用的,还是AI革命最核心的组合架构——Transformer+Diffusion。

时隔3年,AlphaFold 3横空出世,再次掀起AI学术圈巨震!

八大最火课程

01、深度学习解析宏基因组学

02、深度学习在质谱蛋白组学中的应用

03、深度学习在基因组学中的应用

04、机器学习代谢组学

05、深度学习蛋白质设计

06、CADD计算机辅助药物设计

07、AIDD人工智能药物发现与设计

08、蛋白晶体结构解析

01

深度学习解析宏基因组学


第一天

微生物宏基因组学测序技术、数据库、经典生物信息分析流程

上午 

理论讲解 

1. 环境宏基因组学测序技术 

1.1 宏条形码eDNA测序技术

1.2 16S 和 ITS 测序技术 

1.3 鸟枪测序法 

1.4 微生物全基因组测序

1.5 宏转录组测序技术 

1.6 测序平台Illumina、PacBio 、Nanopore 介绍

2. 宏基因组学数据库介绍 

3.经典的宏基因组学生物信息分析流程metaWRAP讲解如何实现序列质量控制、组装、可视化、分类分析、提取基因组草图和功能注释 

下午  

R上机实操 

1. R 入门、安装及实操

1.1 R 包安装及环境搭建

1.2 常见的R数据结构及数据类型

1.3 用R 写函数及统计画图 

2. R 上机实操metaWRAP实现宏基因组学生物信息分析流程 

2.1 序列质量控制

2.2 组装 

2.3 可视化 

2.4 分类分析 

2.5 提取基因组草图 

2.6 功能注释


第二天

深度学习识别宏基因组特征分箱、组装 

上午   

深度学习模型讲解

1.可变自动编码机及VAMB实现宏基因组分箱模型讲解

2. 深度学习实现宏基因组组装方法MetaVelvet-DL模型讲解 

下午  

深度学习模型Python代码解析及GPU服务器上机实操 1.Linux 操作系统 

1.1 常用的Linux 命令

1.2 Vim 编辑器

1.3 基因组数据文件管理, 修改文件权限

1.4 查看探索基因组区域

2.Python 语言基础 

2.1.Python 包安装和环境搭建

2.2.常见的数据结构和数据类型 

3. 深度学习模型可变自动编码机及VAMB代码解析及复现上机实操

4. 深度学习模型MetaVelvet-DL 代码解析及复现上机实操 


第三天

深度学习模型实现宏基因组分类 

上午    

深度学习模型讲解 

1. Transformer 识别噬菌体基因组PhaMer 模型讲解 

2. 免比对的深度学习分类宏基因组方法seeker模型讲解

3. 深度学习解析肠道菌群基因组方法DeepMicrobes模型讲解 

下午  

深度学习模型Python代码解析及GPU服务器上机实操

1. 深度学习模型PhaMer代码解析及复现上机实操 

2. 深度学习模型seeker代码解析及复现上机实操

3. 深度学习模型DeepMicrobes 代码解析及复现上机实操 


第四天 

深度学习模型预测疾病及病毒宿主交互关系

上午     

深度学习模型讲解

1. 可解释性深度学习从宏基因组中预测疾病 IDMIL 模型讲解 

2. 深度学习从病毒宏基因组中解析解析病毒宿主交互VIDHOP模型讲解

3. 深度学习从人基因组中预测 HTLV-1 病毒与宿主结合位点DeepHTLV模型 讲解 

下午 

深度学习模型Python代码解析及GPU服务器上机实操 1. 深度学习模型IDMIL代码解析及复现上机实操 

2. 深度学习模型VIDHOP代码解析及复现上机实操 

3. 深度学习模型DeepHTLV代码解析及复现上机实操 


第五天

深度学习模型预测耐药基因及微生物群落功能 

上午    

深度学习模型讲解 

1. 深度学习从宏基因组中预测抗生素耐药性基因ARGnet模型讲解

2. 深度学习融合多组学数据从宏基因组中预测微生物群落基因功能HOPE 模型讲解 

下午

深度学习模型Python代码解析及GPU服务器上机实操 

1. 深度学习模型ARGnet代码解析及复现上机实操

2. 深度学习模型HOPE代码解析及复现上机实操

                                                                     

可以上下滚动查看 


02

深度学习在质谱蛋白组学中的应用

第一天

蛋白质组学测序技术及数据库

上午

理论讲解

1.蛋白质组学测序质谱技术

2.介绍蛋白质组学数据库

3.深度学习解析蛋白质组学模型介绍

下午GPU服务器上机实操

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型


第二天

深度学习识别质谱测序中蛋白质肽的理化性质

上午 

理论讲解

1.深度学习模型预测色谱法保留时间及碎片离子浓度Prosit

2.深度学习预测质谱测序中截面碰撞CCS工具DeepCollisionalCrossSection

3.深度学习预测单细胞蛋白组学覆盖率DeepSCP模型

下午 

深度学习模型Python代码解析及GPU服务器上机实操

1.复现深度学习模型预测色谱法保留时间及碎片离子浓度Prosit模型

2.复现深度学习预测质谱测序中截面碰撞工具DeepCollisionalCrossSection

3.复现深度学习预测单细胞蛋白组学覆盖率DeepSCP模型


第三天

深度学习识别肽及肽组装

上午 理论讲解

1.深度学习从宏蛋白组学中识别肽 DeepFilter模型

2.深度学习从蛋白质数据库中识别肽DeepDIA模型

3.深度学习实现肽组装DeepNovo 及DeepNovo-DIA模型

下午 

深度学习模型Python代码解析及GPU服务器上机实操

1.复现深度学习从宏蛋白组学中识别肽 DeepFilter模型

2.复现深度学习从蛋白质数据库识别肽DeepDIA模型

3.复现深度学习实现肽组装DeepNovo及DeepNovo-DIA模型


第四天

深度学习识别翻译后修饰结合位点识别疾病及药物靶点

上午 

理论讲解 

1.胶囊网络深度学习模型预测翻译后修饰结合位点模型CapsNet_PTM

2.注意力机制深度学习预测MHC I 结合位点ACME模型 

3.深度学习模型PUFFIN量化Peptide-MHC结合不确定性提升药物设计中高亲和力肽筛选

4.深度学习模型预测癌症抗原ACP-MHCNN 模型

下午 

深度学习模型Python代码解析及GPU服务器上机实操

1.复现胶囊网络深度学习模型预测翻译后修饰结合位点模型CapsNet_PTM

2.复现注意力机制深度学习预测pan-specific MHC I 结合位点ACME模型 

3.复现深度学习模型PUFFIN量化Peptide-MHC结合不确定性提升药物设计中高亲和力肽筛选

4.复现深度学习模型预测癌症抗原ACP-MHCNN模型


第五天

深度学习识别蛋白质功能

上午 

理论讲解

1.深度学习模型3D卷积网络预测蛋白质-蛋白质相互作用DeepRank

2.深度学习模型量化蛋白质表达DLNetworkForProteinAbundance

3.基于自然语言注意力机制深度学习模型预测蛋白质功能SPROF-GO

4.深度学习模型PCfun 预测蛋白质复合物Gene Ontology功能

下午 

深度学习模型Python代码解析及GPU服务器上机实操

1.复现深度学习模型3D卷积网络预测蛋白质-蛋白质相互作用DeepRank

2.复现深度学习模型量化蛋白质表达DLNetworkForProteinAbundance

3.复现基于自然语言注意力机制深度学习模型预测蛋白质功能SPROF-GO

4.复现深度学习模型PCfun 预测蛋白质复合物Gene Ontology功能

                                                                     

可以上下滚动查看 


03

深度学习在基因组学中的应用

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

基因组常用深度学习框架

1.介绍深度学习工具包tensorflow, keras,pytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理, 修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

3.安装深度学习工具包tensorflow, keras,pytorch,在工具包中识别深度学习模型要素


第二天

理论部分

1.介绍keras_dna平台,搭建基因组学常用深度学习应用案例

2.深度学习模型DeepG4从Chip-Seq及DnaseSeq中识别基序特征G4

实操内容

1.基因组数据处理搭建深度学习模型

1.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等

1.2使用keras_dna设计深度学习模型

1.3使用keras_dna分割训练集、测试集

1.4使用keras_dna选取特定染色体的基因序列等

2.使用keras_dna平台复现DeepG4模型,从Chip-Seq中识别G4特征


第三天

理论部分

深度学习在基因调控预测中的应用

1.selene_sdk预测DNA甲基化及转录调控因子等DeepSEA

2.循环神经网络RNN从RNA序列中预测pre-miRNA,dnnMiRPre

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、基因调控因子DeepSEA,

1.安装selene_sdk,复现DeepSEA预测DNA甲基化,非编码基因变异等基因调控因子

2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测pre-miRNA 


第四天

理论部分

深度学习在预测疾病表型及生物标志物上的应用

1.从高维基因表达数据中识别乳腺癌分型的自动编码机深度学习工具DeepType

2.深度学习在识别拷贝数变异DeepCNV模型

实操内容

1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型

2.解析DeepType中新的乳腺癌亚型的标志基因

3.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异


第五天

理论部分

深度学习在预测药物反应机制上的应用

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet

实操内容

1.预处理药物分子结构信息

2.计算药物相似性

3.在不同数据集上构建self-attention SWnet

4.评估self-attention SWnet

5.构建多任务的SWnet

6.构建单层SWnet

7.构建带权值层的SWnet

                                                                     

可以上下滚动查看 


04

机器学习代谢组学

第一天

A1 代谢物及代谢组学的发展与应用

(1) 代谢与生理过程;

(2) 代谢与疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢组学与药物和生物标志物;

(6) 代谢流与机制研究。

A2 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;        

(2) 三大常见代谢物库:HMDB、METLIN 和 KEGG; 

(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights.

A3 参考资料推荐

A4 代谢组学实验流程简介 

A5 色谱质谱硬件与原理解析

(1) 色谱分析原理与构造;

(2) 色谱仪和色谱柱的选择;

(3) 色谱的流动相:梯度洗脱法;

(4) 离子源、质量分析器与质量检测器解析;

(5) 质谱分析原理及动画演示;

(6) 色谱质谱联用技术(LC-MS);


第二天

B1 代谢物样本处理与抽提

(1) 各种组织、血液和体液等样本的提取流程与注意事项;

(2) 代谢物抽提流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库 

(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

(4) Xcms 软件数据转换、提峰、峰对齐与搜库;

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 中的基础运算和统计计算;

(4) R 中的包:包,函数与参数的使用;

(5) R 语言语法,数据类型与数据结构;

(6) R 基础画图;

B4 ggplot2 

(1) ggplot2 简介

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 数据挖掘与作图实战;


第三天

机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

(1) 人工智能、机器学习、深度学习的关系;

(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;

(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?

(4) VIP score 的意义及选择;

(5) 分类算法:决策树,随机森林和贝叶斯网络模型;

C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读;

(2) 演练与操作;

C3 无监督式机器学习在代谢组学数据处理中的应用 

(1) 大数据处理中的降维;

(2) PCA 分析作图;

(3) 三种常见的聚类分析:K-means、层次分析与 SOM

(4) 热图和 hcluster 图的 R 语言实现;

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析;

(2) 演练与操作;


第四天

D1 在线代谢组分析网页 Metaboanalyst 操作 

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库) 

(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;

(5) Metaboanalyst 的结果查看和导出;

(6) Metaboanalyst 的数据编辑;

(7) 全流程演练与操作。

D2 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse;

(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);

(5) 代谢组学数据清洗演练;


第五天

E1 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

E2 机器学习与代谢组学顶刊解读(3 篇);

(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变 化的小鼠脑组织代谢图谱类的文献;(数据库型)

(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物 的文献;(生物标志物型) 

(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的 文献。(机制研究型)


                                                                     

可以上下滚动查看 


05

深度学习蛋白质设计

第一天

蛋白质结构及分子动力学基础

a)蛋白质设计概述

b)蛋白质结构基础 

pdb文件格式详解

数据库详解

同源建模

c)分子动力学基础

分子-蛋白对接

蛋白-蛋白对接

可视化软件pymol使用

AMBER分子动力学模拟

高斯加速分子动力学模拟

模拟轨迹RG,RMSD,RMSF,二级结构变化,PCA分析

MM-GB/PBSA方法计算结合自由能

实践范例: 蛋白和小分子配体的分子动力学模拟


第二天

机器学习与深度学习基本知识

a)经典模型

线性及非线性映射:线性回归、逻辑回归

聚类:K-近邻聚类

核方法:支持向量机

树方法:决策树、随机森林

神经网络:多层感知机

机器学习药物筛选分类案例实操

b)深度学习

深度神经网络DNN

卷积神经网络CNN

循环神经网络RNN

深度学习常用的loss介绍

模型评估与优化方法

  评估指标:准确率、召回率、F1分数等

  优化方法:正则化、Dropout等

超参数调优

  超参数对于模型的影响

  网格搜索、随机搜索

基于蛋白和分子图结构的深度学习案例实操

c)前沿架构原理及实操

Transformer

BERT

GPT

ViT


第三天

蛋白结构预测及其下游应用

a)蛋白结构预测背景介绍

b)Rosettafold和alphafold

AF和AF2的差异与创新

AF3的差异与创新

Alphafold使用详解

AlphaFold 3和AlphaFold 2的区别(包含实践示范:如何使用AlphaFold 3大模型开源服务器进行蛋白质结构预测以及相互作用预测)

Rosettafold详解

c)基于Alphafold的下游应用

基于AF的蛋白-蛋白对接/蛋白-多肽对接

利用AF2做多构象预测和功能发现

基于AF2的环肽设计

d)trrosetta幻想设计

e)基于ProteinMPNN的蛋白质设计

MPNN模型简介

设计流程

方法比较


第四天

蛋白质的从头生成模型

a)扩散模型

b)RFdiffusion实现蛋白结构设计

蛋白Binder生成

蛋白骨架设计

单体蛋白从头生成

多聚体蛋白从头生成

RoseTTAFold All-Atom大模型的介绍

c)Chroma的基本构架与实现

蛋白构象空间全空间采样

d)ProteinGenerator蛋白质骨架与序列设计

与rfdiffusion的异同

e)蛋白设计案例实操


第五天

lecture5 蛋白大语言模型的应用

a)ProGEN与ProGEN2

模型构架讲解

与基于结构方法的比较

性能与改进 

b)ESM-fold

ESM-fold的基本架构

ESMfold网络讲解

ESMFold大模型的实操

与alphafold方法的对比

ESM-fold的性能评估

c) 基于大语言模型的下游应用

孤儿蛋白结构的预测

大型蛋白复合物结构预测

d)多肽设计概览

基于RFdiffusion实现多肽设计

基于AF2的环肽设计

e)妙用ChatGPT

GPT直接用于生物体系的探索

                                                                       

可以上下滚动查看 


06

CADD计算机辅助药物设计

第一天

导论与基础

1. 蛋白质三维结构的预测对于药物发现的重要性

1.1 同源建模

1.2 从头建模

2. 蛋白质(酶/靶点)活性位点在药物发现的重要性

3. 药物发现中的关键结构特征(特别是小分子)

4. 药物辅助发现常用的计算方法

4.1 分子对接

4.2 虚拟筛选

4.3 分子动力学模拟

4.4 其他

PDB数据库的介绍

1.1 检索蛋白

1.2 页面功能及解读

1.3 数据的下载

1.4 PDB文件格式的解读

2. PyMol

2.1 软件介绍

2.2 基本操作介绍

2.3 蛋白及小分子表面图、静电势表示

2.4 绘制相互作用图及制作简单动画


第二天

同源建模

1. 同源建模原理介绍

1.1 同源建模的功能及使用场景

1.2 同源建模的方法

2. Swiss-Model 同源建模;

2.1 同源蛋白的搜索(blast等方法)

2.2 蛋白序列比对

2.3 蛋白模板选择

2.4 蛋白模型搭建

2.5 模型评价(蛋白拉曼图)

2.6 蛋白模型优化                       

实例讲解与练习:用2019-nCoV spike蛋白序列建模,根据相应参数和方法评价模型

小分子构建

1. ChemDraw软件介绍

1.1 小分子结构构建

1.2 小分子理化性质(如分子量、clogP等)计算

1.3 分别构建大环、氨基酸、DNA、RNA等分子

小分子化合物库

2 小分子数据库

2.1 DrugBank、ZINC、ChEMBL等数据库介绍及使用

2.2 天然产物、中药成分数据库介绍及使用


第三天

 分子对接基础

1.1 分子对接原理

1.2 分子对接分类

1.3 分子对接打分函数

2. 常规分子对接实践

2.1 对接的执行

2.1.1 药物分子配体的准备

2.1.2 蛋白受体的准备

2.1.3 受体格点计算

2.1.3 执行半柔性对接

对接结果评价

1.2.1 晶体结构构象进行对比

1.2.2 能量角度评价对接结果

1.2.3 聚类分析评价对接结果

1.2.4 最优结合构象的选择

2 对接其他方式的实现


第四天

1 柔性对接

1.1 小分子配体优化准备

1.2 蛋白受体的准备

1.3 柔性残基的定义

1.4 蛋白受体格点计算

1.5 柔性对接计算及结果评价

1.6 半柔性对接与柔性对接比较与选择

2 柔性对接其他方式的实现

下午

基于受体的药物发现

1 虚拟筛选的准备

1.1 小分子文件的不同格式

1.2 openbabel最实用功能的介绍

1.3 小分子不同格式的转化

2. 基于对接的虚拟筛选

2.1 虚拟筛选定义、流程构建及演示

2.2 靶点蛋白选择、化合物库获取

2.3 虚拟筛选

2.4 结果分析(打分值、能量及相互作用分析)


第五天

一些特殊的分子对接

1.小分子-小分子对接

1.1小分子-小分子相互作用简介

1.2小分子结构预处理

1.3小分子-小分子对接(糖-小分子为例)

1.4对接结果展示与分析

2. 蛋白-核酸对接

3. 蛋白-蛋白对接

下午

基于配体的药物发现

1. 3D-QSAR模型构建(Sybyl软件)

1.1 小分子构建

1.2 创建小分子数据库

1.3 小分子加电荷及能量优化

1.4 分子活性构象确定及叠合

1.5 创建3D-QSAR模型

1.6 CoMFA和CoMSIA模型构建

1.7 测试集验证模型

1.8 模型参数分析

1.9 模型等势图分析

1.10 3D-QSAR模型指导药物设计


第六天

1. linux系统介绍

2.常用命令介绍

3. linux上程序的安装(gromacs)

下午

MD实践一:溶剂化下蛋白质分子动力学模拟

全面熟悉分子动力学模拟的一般流程


第七天

MD实践二:溶剂化下蛋白质-配体的分子动力学模拟

掌握处理非标准残基的力场拟合

下午

分子动力学模拟中的常用分析命令

蛋白-配体结合自由能的结算

                                                                      

可以上下滚动查看 


07

AIDD人工智能药物发现与设计

第一天

AIDD概述及药物综合数据库学习

1.人工智能辅助药物设计AIDD概述

2.安装环境

1.anaconda

2.vscode

3.虚拟环境

4.切换pip和conda镜像源

3.第三方库基本使用方法

1.numpy (数据计算工具)

2.pandas (数据清洗工具)

3.matplotlib (结果可视化绘图工具)

4.requests (数据库爬虫工具)

4.多种药物综合数据库的获取方式

1.KEGG(requests爬虫)

2.Chebi(libChEBIpy)

3.PubChem(pubchempy / requests)

4.ChEMBL(chembl_webresource_client)

5.BiGG(curl)

5.DeepChem集成MoleculeNet数据库介绍及下载


第二天

机器学习辅助药物设计

1.机器学习理论知识概述

2.机器学习种类:

1.监督学习

2.无监督学习

3.强化学习

3.典型机器学习方法

1.决策树

2.支持向量机

3.朴素贝叶斯

4.神经网络

5.卷积神经网络

4.模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等

5.sklearn工具包基本使用

6.化合物编码方式和化合物相似性理论知识

7.rdkit工具包的关于分子的基本使用

1.RDKit安装

2.基于RDKit的分子读写

3.基于RDKit的分子绘制

4.基于RDKit的分子指纹与分子描述符

5.基于RDKit的化合物相似性与子结构

6.基于 RDKit 与 Python3 的构象与 RMSD 计算

8.项目实战

1.项目实战1:基于ADME和Ro5的分子筛选

2.项目实战2:基于化合物相似性的配体筛选

3.项目实战3:基于化合物相似性的分子聚类

4.项目实战4: 基于机器学习的生物活性预测

5.项目实战5:基于机器学习的分子毒性预测


第三天

图神经网络辅助药物设计

1.图神经网络基础知识

1.框架介绍: PyG,DGL,TorchDrug

2.图神经网络消息传递机制

3.图神经网络数据集设计

4.图神经网络节点预测、图预测任务和边预测任务实战

2.项目实战1: 基于DeepChem进行分子特征提取及图卷积搭建

3.项目实战2:基于图神经网络的分子毒性预测

1.SMILES分子数据集构建PyG图数据集

2.基于GNN进行分子毒性预测

4.项目实战3:基于图神经网络的蛋白质-配体相互作用预测

1.蛋白质分子图形化,构建PyG图数据集

2.基于GIN进行网络搭建及相互作用预测


第四天

自然语言处理辅助药物设计

1.自然语言处理概述

1.文本类语言的向量表示方法

2.Encoder-Decoder模型

3.循环神经网络模型

4.Seq2seq模型

5.Attention注意力机制

6.Transformer模型

2.项目实战

1.基于无监督的Seq2Seq模型进行分子表示学习

2.基于Transformer模型的反应表示方法

3.基于自然语言处理的化学反应分类任务

4.基于BERT模型的化学反应产量预测任务


第五天

药物设计项目实战

1.分子生成与药物设计

1.基于 RDKit 处理化学信息学中的反应方程式

2.基于 RDKit 绘制化学反应

3.基于 RDKit 和 SMARTS 的化学反应处理

4.基于RDKit的化学反应指纹与化学反应相似度计算、

5.基于 RDKit 通过 SMARTS 定义反应模式来生成反应产物

2.蛋白质相关与药物设计

1.蛋白质数据库介绍与相关数据爬取

1.PDB数据库

2.UniProt数据库

2.基于RDKit的蛋白质基本处理

3.项目实战1:基于NGLView可视化的蛋白质-配套相互作用

4.项目实战2: 基于机器学习的蛋白质-配体相互作用亲和力预测

5.项目实战3: 基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测

6.项目实战4:基于序列的蛋白质属性预测

7.项目实战5:基于结构的蛋白质属性预测

                                                                      

可以上下滚动查看 


08

蛋白晶体结构解析

第一天

蛋白质结晶前准备

课程介绍和蛋白质结构功能基本介绍

提纯蛋白质,确定浓度、pH值、缓冲液等条件,控制蛋白质稳定性等。

1、目的蛋白质信息检索与调查

- 利用生物信息学工具搜集目标蛋白质的基因序列、结构域、同源蛋白质的信息

- 分析目标蛋白质的理化性质,如分子量、等电点、聚合程度、稳定性等

2、质粒制备

- 设计引物,克隆目标基因到表达载体

- 转化表达宿主,提取重组质粒

- 质粒测序等验证目标基因插入

3、蛋白质纯化

- 选择合适的诱导表达等条件,表达可溶性或不溶性重组蛋白

- 裂解菌体,释放重组蛋白质

- 蛋白质纯化:亲和层析、离子交换层析、凝胶过滤等层析技术的原理和实践等

4、蛋白质不表达和包涵体问题

- 分析不表达的原因,优化诱导条件

- 改进溶解缓冲液条件,提高蛋白从包涵体中释放

5、蛋白质活性鉴定

- 进行Western Blot或酶活性实验验证蛋白质活性

6、蛋白质结晶前分析

- 测定蛋白质的纯度、聚合状态、稳定性等

- 优化缓冲液条件,调整蛋白质到适宜的pH和离子浓度等


第二天

蛋白质结晶与衍射数据收集

利用协同结晶筛选获得蛋白质结晶,在同步辐射光源下收集衍射数据。

1、蛋白质结晶

- 蛋白质结晶的基本原理

- 蛋白质结晶的影响因素

- 蛋白质结晶的基本方法

- 结晶条件筛选策略- 结晶条件筛选策略

- 没有晶体或者改善晶体质量的策略

- 晶体后处理

- 晶体冻存的基本原理和策略

2、SSRF(同步辐射光源) 的介绍

- SSRF简介

- SSRF的光源优势

- SSRF的实验站介绍

3、蛋白质晶体衍射数据收集

- X射线结晶学基本原理

- 晶体探针和晶体定位

- 晶体测试和优化

- 衍射数据收集参数设定和收集策略

- 衍射数据处理和分析


第三天

蛋白质晶体结构解析软件安装

安装相关计算机程序,如Phenix, XDS, Pymol等用于后续的数据处理与模型建立。

1、下载和安装简要介绍

2、蛋白质晶体结构解析软件安装

- CCP4安装

- Phenix安装

- Coot安装

- PyMol安装

- 其他结构解析支持软件安装

依次介绍CCP4、Phenix、Coot、PyMol等主要的结构解析软件的下载和安装方法。也可以介绍一些结构解析中需要的其他软件工具的安装。

Index、integrate与scale & merge等软件使用和介绍

利用软件index及integrate衍射点,scale& merge等处理衍射数据以校正强度。 

1、晶体结构学基础知识

- 晶体学中的衍射理论基础

- 布拉格定律和倒易空间

- 晶体的对称性

2、蛋白质晶体结构解析流程

- 蛋白质的表达与纯化

- 蛋白质的结晶

- X射线晶体学数据收集

- 晶体结构解析流程概述

3、Index和integrate

- Indexing的目的和原理

- Integration的目的和过程

4、Scale & merge

- Scale & merge的目的——校正数据

- Scale& merge常用方法

5、使用Scala/XSCALE/Aimless等进行Scale & merge

- Scala/XSCALE/Aimless等软件介绍

- Scala/XSCALE/Aimless进行数据scale& merge的步骤

6、使用HKL2000进行index、integrate和scale & merge

- HKL2000软件介绍

- 使用HKL2000进行indexing

- 使用HKL2000进行integration

- 使用HKL2000进行scaling & merge


第四天

相位解析、电子密度重构、分子结构模型构建修正和优化与结构提交

利用直接法/分子置换法/M(S)AD/M(S)IR 等等相位解析方法确定蛋白质框架,手动模型构建余下结构,进行修正和优化后达到标准后提交蛋白质坐标库。

1、 直接法/分子置换法/M(S)AD/M(S)IR 等方法解析相位

(1)直接法/分子置换法/M(S)AD/M(S)IR等的基本原理

(2) 直接法/分子置换法/M(S)AD/M(S)IR等的目的

(3) 常用的软件介绍

(4) 直接法/分子置换法/M(S)AD/M(S)IR等的具体操作步骤

2.电子密度修饰:

(1)电子密度修饰的基本原理:

(2)电子密度修饰的目的

(3)电子密度修饰的常用软件介绍

(4)电子密度修饰的具体操作步骤

3.电子密度重构

(1)电子密度重构的目的和基本原理

(2)电子密度重构的操作

4、蛋白质晶体结构模型构建

(1) 蛋白质序列比对确定构建起始模型

(2) 主链构建方法

(3) 侧链构建方法

(4) 构建完成后的模型检查

5、蛋白质晶体结构修正与优化

(1) 能量最小化原理 

(2) 模拟退火原理

(3) 分子动力学模拟原理

(4) 优化过程中的评估标准

(5)结构修正常用软件介绍

(6)结构修证的具体操作步骤

6、蛋白质晶体结构验证

(1)结构验证的目的和基本原理

(2) Ramachandran图分析

(3) 各类键长和键角分布

(4) 密接点分析

(5) B因子分布

(6) 电子密度匹配度评价

(7)各种指标与统计数据

7、蛋白质晶体结构提交到PDB

(1) PDB数据提交要求

(2) 各项验证确认无误后压缩需提交文件

(3) 在PDB网站提交表单,上传文件,等待审核结果,回复信息


第五天

蛋白质晶体结构展示与分析 、结构与功能的关系

5.1 利用Pymol等软件分析并展示蛋白质的二级结构、三级结构,活性口袋等结构信息。

1、pdb格式文件简介

- pdb文件概述:包含蛋白质晶体学数据的标准格式

- 原子坐标:记录每个原子的xyz坐标

- 温度因子:记录每个原子的热运动参数

- 二级结构:记录α螺旋和β片层的位置

- 结构注解:记录配体、酶活性中心等重要结构信息

2、PyMOL制作蛋白质晶体结构图 

- PyMOL简介:流行的分子可视化软件

- 加载pdb文件

- 显示蛋白质链、α螺旋和β片层

- 调整视角、变色和放大关键结构

- 导出高质量图像3、使用PyMOL制作蛋白质配体结合位点信息

- 识别蛋白质与配体的相互作用

- 突出显示配体结合位点残基

- 在结合位点生成表面模型

- 制作配体结合位点的特写图

4、使用PyMOL调查蛋白质的温度因子B-factors

- 显示温度因子putty图

- 分析柔性域和稳定域

- 与酶活性中心和功能位点的关系

5、使用PyMOL重叠对比不同的蛋白质晶体结构

- 载入不同状态的pdb文件

- 重叠对齐蛋白质结构

- 比较构象变化,如酶动力学过程中的不同中间状态6、使用PyMOL显示蛋白质晶体结构中配体的电子密度图

- 加载包含配体密度的pdb文件

- 显示2Fo-Fc 和 Fo-Fc电子密度图

- 检查配体与电子密度的匹配程度

- 评估配体定位和取向的准确性7、使用PyMOL结合Chimera实现同步显示非对称单元的蛋白质分子

- 在PyMOL中显示蛋白质非对称单元

- 在Chimera中同步显示非对称单元

- 细节对比不同分子中的相同结构

- 分析蛋白质多聚体形成的分子间相互作用

5.2 生物大分子结构介绍

5.3 结构与功能关系:

(1)如何分析结构与功能关系:

(2)分析结构的目的:

(3)结构与功能关系的研究手段:

(4)结构能带来什么?

(5)测定结构之后的思路介绍


                                                                     

可以上下滚动查看 



学习目标

01.深度学习蛋白质设计

这一课程旨在为学生提供深度学习与蛋白质设计领域的全面知识。通过讲授深度学习的基本概念和前沿技术,学生将理解深度学习在生物信息学特别是蛋白质设计中的具体应用。学生将了解如何使用主流深度学习框架PyTorch进行模型构建与优化,并通过实践操作掌握蛋白质结构预测、蛋白质功能预测和分子对接等关键技术。课程将介绍AlphaFold等先进模型,并探讨其在药物发现中的重要性。同时通过多肽设计、逆向中心法则等专题,学生将全面了解从功能推导结构和从零开始设计蛋白质的策略。

02.CADD计算机辅助药物设计

掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分     子动力学全程实操、溶剂化分子动力学模拟

03.AIDD人工智能药物发现与设计

本课程让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力

04.蛋白晶体结构解析

让学员了解蛋白质晶体结构解析的原理、方法与技术,学习分子克隆、蛋白表达纯化、蛋白结晶方法、软件安装,蛋白结构数据处理,得到高分辨率的蛋白晶体结构。使学员通过本次课程的学习,很轻松地解析出蛋白晶体结构,并进行晶体结构的精修。

05.机器学习代谢组学

熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。

06.深度学习在基因组学中的应用

深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中。

07.深度学习解析宏基因组学

本课程介绍先进的深度学习模型,如卷积神经网络、循环神经网络、图神经网络、自动编码机、注意力机制等在微生物宏基因组学分析中的应用,如提取宏基因组特征、病毒及噬菌体基因组分类和识别、基因组组装、预测疾病相关性、微生物功能预测等。

08.深度学习在质谱蛋白组学中的应用

通过对这些深度学习在蛋白组学中的应用案例进行深度讲解和实操,让学员能够掌握深度学习分析蛋白组学数据流程,系统学习深度学习及蛋白组学理论知识及熟悉软件代码实操,熟练掌握这些前沿的分析工具的使用以及研究创新深度学习算法解决生物学及临床疾病问题与需求。


讲师介绍



深度学习蛋白质设计

授课老师来中国科学院北京基因组研究所。共发表SCI论文16篇,.生物学 2 区 共同一作. 化学2区 共同一作化学 2 区 共同一作. .生物 1 区 共同一作. . 综合 2 区 共 同一作. 熟练AMBER、VMD、AutodockVina、PyMOL. DiscoveryStudio、Gaussian等软件,熟悉分子动力学模拟 以及增强采样。有丰富计算机辅助药物设计与筛选经验,基于计算的蛋白设计与改造经验。拥有多年实操课教学 经验并备受好评.

CADD计算机辅助药物设计

主讲老师来自国内高校、中科院等单位,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究。

AIDD人工智能药物发现与设计

AIDD授课老师曹老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物合成路径设计,药物不良反应等。发明专利5项,参与国家重点科研项目4项,发表SCI高水平论文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

蛋白晶体结构解析

范成鹏教授毕业于中国科学院生物物理研究所,师从著名结构生物学家王院士,具有美国耶鲁大学留学六年多的背景,为武汉大学独立PI,研究方向是结构生物学和免疫学。范老师在多种国际期刊上发表论文30余篇,包括国际顶尖杂志PNAS两篇,一区top2篇等;并主持国家自然科学基金面上项目等,担任中国晶体学会生物大分子专业委员会委员,担任国家自然科学基金评审专家和上海光源用户课题评审专家等;并且应邀担任国际著名学术杂志Nature Communication和Journal of Virology, Structure等的审稿人。

机器学习代谢组学

主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

深度学习在基因组学中的应用

主讲老师刘老师,生物信息学PI,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,发表SCI论文23篇,论著一部。

深度学习解析宏基因组学

主讲老师刘老师,生物信息学博士,从事生物信息及医学人工智能研究 15 年,开发过数个生物信息学工具,发表 SCI 论文 20 余篇,其中人工智能算法文章近 10 篇,编著医学数据分析实用教材一部,研究致力于医学人工智能在复杂疾病诊疗中的应用。

深度学习在质谱蛋白组学中的应用

主讲老师刘老师,生物信息学博士,从事生物信息及医学人工智能研究 15 年,开发过数个生物信息学工具,发表 SCI 论文 20 余篇,其中人工智能算法文章近 10 篇,编著医学数据分析实用教材一部,研究致力于医学人工智能在复杂疾病诊疗中的应用。

# Shopping Guide



授课时间

#01-深度学习蛋白质设计


2024.10.12-2024.10.13

全天课程(上午9:00-11:30下午13:30-17:00)

2024.10.15-2024.10.16

晚上授课(晚19:00—晚22:00)

2024.10.19-2024.10.20

全天课程(上午9:00-11:30下午13:30-17:00)

#02-CADD计算机辅助药物设计


2024.10.19-2024.10.20

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.21-2024.10.24

晚上授课(晚19:00—晚22:00)

2024.10.26-2024.10.27

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.28-2024.10.29

晚上授课(晚19:00—晚22:00)

#03-AIDD人工智能药物发现


2024.10.12-2024.10.13

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.15-2024.10.16

晚上授课(晚19:00—晚22:00)

2024.10.19-2024.10.20

全天授课(上午9:00-11:30下午13:30-17:00)

#04-机器学习代谢组学


2024.10.12-2024.10.13

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.15-2024.10.16

晚上授课(晚19:00—晚22:00)

2024.10.19-2024.10.20

全天授课(上午9:00-11:30下午13:30-17:00)

#05-深度学习基因组学


2024.10.12 -2024.10.13

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.13-2024.10.14

晚上授课(晚19:00—晚22:00)

2024.10.19-2024.10.20

全天授课(上午9:00-11:30下午13:30-17:00)

#06-蛋白质晶体结构解析


2024.10.19-2024.10.20

全天授课(上午9:00-11:30下午13:30-17:00)

2024.10.22-2024.10.23

晚上授课(晚19:00—晚22:00)

2024.10.26-2024.10.27

全天授课(上午9:00-11:30下午13:30-17:00)

#07-深度学习解析宏基因组学


2024.10.15-2024.10.18

晚上授课(晚19:00—晚22:00)

2024.10.21-2024.10.24

晚上授课(晚19:00—晚22:00)

2024.10.26

全天授课(上午9:00-11:30下午13:30-17:00)

#08-深度学习在质谱蛋白组学中的应用


2024.10.27

全天授课(上午9:00-11:30下午13:30-17:00)

2024,10.29-2024.11.01

晚上授课(晚19:00—晚22:00)

2024,11.02-2024.11.03

全天授课(上午9:00-11:30下午13:30-17:00)

(腾讯会议直播上课   提供录像回放  录像永久观看)


报名费用及福利

common problem


深度学习蛋白质设计

公费价:6380元      自费价:5880元


CADD计算机辅助药物设计;AIDD人工智能药物发现与设计;蛋白晶体结构解析;机器学习代谢组学;深度学习基因组学;深度学习解析宏基因组学;深度学习在质谱蛋白组学中的应用;

每班公费价:5880元      每班自费价:5480元

01

报二赠一10880元(原价17140,可任选三门课学习)

02

报四赠二18880元(原价35280,可任选六门课学习)

03

全部报名25880元(两年内可免费学习本公司举办的任何课程,不限次数)

04

报名成功后转发朋友圈或转发50人以上群聊即可获得300元现金红包(只限前15名)

05

报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销 。报名缴费后即可获得全套预习资料供大家课前准备

06

结业证书:参加培训并通过考试的学员,可以获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,需另行缴纳考试费500元/人)

SIMPLICITY

官方联系人





联系人:汪老师

报名咨询电话:13140113821(同V)


往期学员好评



Ad植物微生物
分享植物与微生物相关学科最新研究进展和科学知识。
 最新文章