2024合成生物最重磅成果综述！国内团队呕心沥血十年终打破百年难题！

2024-12-17 09:00 湖北

年终福利大放送

10月9日，欧洲中部时间11时45分（北京时间17时45分），瑞典皇家科学院决定将2024年诺贝尔化学奖的一半授予大卫·贝克（David Baker），以表彰他在“计算蛋白质设计”方面的贡献，并将另一半授予戴密斯·哈萨比斯（Demis Hassabis）和约翰·M·詹伯（John M. Jumper），以表彰他们在“蛋白质结构预测”方面的贡献。

2024 年 5 月 8 日，谷歌 DeepMind 与 Isomorphic Labs 联合在《自然》期刊上发布蛋白质领域最新人工智能模型 AlphaFold 3！这一模型能够准确预测蛋白质、DNA、RNA 以及配体等生命分子的结构及其相互作用方式。这是继AlphaFold 2 之后的又一重大突破

在预测类药物相互作用方面，AlphaFold 3 实现了前所未有的准确度，包括蛋白质与配体的结合以及抗体与其靶蛋白的结合。在 PoseBusters 的基准测试中，AlphaFold 3 的准确率比现有最佳传统方法高出 50%，而且无需任何结构信息输入，成为首个超越传统物理预测工具的人工智能系统。这种预测抗体与蛋白质结合的能力，对于理解人类免疫反应的各个方面以及新抗体的设计至关重要。

四大序列模型大比拼

1.ProteinMPNN是基于信息传递神经网络（MPNN）开发的，能够通过给定的蛋质骨架结构找到正确折叠的氨基酸序列。它的功能是通过蛋白质骨架特征如Cα-Cα原子间距离、二面角等信息，生成预测的氨基酸序列。与传统的Rosetta（Rosetta的原理为基于物理的方法将序列设计视为能量优化问题，在给定的输入结构中寻找具有最低能量的氨基酸身份和构象的组合）相比，ProteinMPNN在序列恢复、计算效率和适用范围上具有显著优势。该方法广泛应用于单体、环低聚物、蛋白质纳米颗粒和蛋白质-蛋白质界面的设计

2.ABACUS-R是一个深度学习模型，在给定主链的情况下可以设计序列。方法使用一个具有编码器和解码器的网络模型，使用多任务方法训练。环境的特征使用氨基酸类型，但是没有显式描述氨基酸的侧链构象（Rotamer-Free）。通过X-ray的实验验证，ABACUS-R超过了目前最优秀的序列从头设计算法，可以作为非常有效的蛋白质设计工具

3.CarbonDesign 是蛋白质序列设计版的 AlphaFold，它从用于蛋白质结构预测的 AlphaFold 模型中汲取灵感，并专门针对蛋白质序列设计进行了算法改进。该工具能够准确且稳健的设计蛋白质序列，可以被广泛应用于不同蛋白质设计场景，并且可以预测蛋白质突变的功能影响。

4.CARBonAra模型。该模型基于几何变换器架构,可以同时处理蛋白质骨架和周围的任何类型分子,包括其他蛋白质、核酸、配体、离子等,从而实现更加精确和灵活的蛋白质序列设计

国内主要从事AI蛋白质设计的高校

北京大学、国际机器学习研究中心、清华大学

中国科学院计算技术研究所、中国人民大学、上海交通大学

复旦大学、上海科技大学、中国科学院上海药物研究所

中国科学院分子细胞科学卓越创新中心

浙江大学、西湖大学、浙江工业大学、

深圳先进技术研究院、清华大学深圳国际研究生院

南方科技大学、中国科学技术大学、中国科学院微生物研究所

厦门大学、山东大学、中国科学院天津工业生物技术研究所

发CNS必须要学的五大课程

01.AI蛋白质设计

02.AIDD人工智能药物发现与设计

03.CADD计算机辅助药物设计

04.深度学习基因组学

05.机器学习代谢组学

AI蛋白质设计

*涉及使用代码/计算工具的操作

一、蛋白质相关的深度学习简介

1.基础概念

1.1.机器学习简介：从手写数字识别到大语言模型

1.2.蛋白质结构预测与设计回顾

1.3.Linux简介

1.4.代码环境：VS code和Jupyter notebook*

1.5.Python关键概念介绍*

2.常用的分析/可视化蛋白质及相关分子的方法

2.1.常用数据库与同源序列搜索和MSA构建

2.2.使用pymol和Mol*可视化蛋白质结构*

2.3.使用biopython与biotite分析生物序列与结构数据*

2.4.使用fpocket与point-site分析蛋白质结构口袋*

3.深度学习蛋白质设计与传统蛋白质设计之间的差异

3.1.深度学习的本质

3.2.传统方法：全原子能量函数Rosetta与统计势

3.3.深度学习：几何深度学习

3.4.深度学习与传统的物理方法的互补性

3.5.深度学习蛋白质设计的优越性

4.蛋白质语言模型

4.1.语言模型：从RNN到Transformers

4.2.理解蛋白质语言

4.3.生成式蛋白质语言模型

4.4.结构模型与语言模型的比较分析

5.基于深度学习的蛋白质功能与性质预测

5.1.蛋白质功能分类预测*

5.2.信号肽、跨膜区、亚细胞定位预测

5.3.蛋白质同源结构搜索

5.4.酶活性位点预测

二、深度学习与蛋白质结构预测

1.传统蛋白质（复合物）结构预测

1.1.使用modeller、swiss-model进行同源建模

1.2.基于分子动力学的从头建模

1.3.分子对接加入非蛋白质部分，AutoDock Vina实际操作*

2.现代深度学习用于蛋白质结构预测

2.1.RaptorX：从计算机视觉到蛋白质结构

2.2.AlphaFold2

2.3.AlphaFold3：生成式结构预测

2.4.ESMFold：语言模型与结构预测的融合

3.AlphaFold2 原理回顾

3.1.从共进化到结构

3.2.注意力机制

3.3.EvoFormer

3.4.Structural Module

4.AlphaFold3 介绍

4.1.扩散模型

4.2.训练数据

4.3.AlphaFold3 的成绩与不足

5.AlphaFold2/3 实际操作与结果分析

5.1.AlphaFold2实操*

5.2.AlphaFold2分析*

5.3.AlphaFold server使用*

5.4.本地版的AlphaFold3*

5.5.AlphaFold3分析*

6.ESMFold

6.1.从语言模型到结构预测

6.2.什么时候使用ESMFold，什么时候使用AlphaFold

6.3.ESMFold使用*

三、固定主链蛋白质序列设计

1.传统的蛋白质序列设计

1.1.基于全原子力场*

1.2.基于统计势

2.融入结构知识的语言模型设计蛋白质序列

2.1.ESM-IF原理介绍

2.2.ESM-IF的应用*

3.基于CNN的序列设计

3.1.CNN原理简介

3.2.DenseCPD设计方法

3.3.有侧链构象的设计方法

4.基于GNN设计序列

4.1.ProteinMPNN 的成功经验分析

4.2.ProteinMPNN 的广泛应用

4.3.ProteinMPNN 实际操作*

5.其他的序列设计模型

5.1.ABACUS-R 简介与实际操作*

5.2.CarbonDesign 从结构预测来到序列设计去*

5.3.CARBonAra 环境感知的序列设计*

6.固定主链序列设计在功能蛋白设计中的应用

6.1.新骨架蛋白质表达量优化（Science文章复现）*

6.2.抗体亲和力优化（Science文章复现）*

6.3.结合进化信息的酶性质全方位优化（JACS文章复现）*

四、深度学习蛋白质结构设计

1.传统思路回顾

1.1.结构域拼接

1.2.SCUBA：无侧链的蛋白质力场

2.基于蛋白质表面几何深度学习的binder设计

2.1.masif原理简介

2.2.masif用于识别蛋白表面的PPI热点

2.3.masif设计binder

3.基于扩散模型的蛋白质骨架设计模型

3.1.FrameDiff：基于IPA的主链生成*

3.2.Chroma：等变图神经网络结构设计

3.3.RFDiffusion：基于RosettaFold

3.4.RFDiffusion-All-Atom：基于RosettaFold-All-Atom

4.序列-结构共设计

4.1.trDesign

4.2.AlphaFold Hallucination

4.3.Rfjoint

4.4.Protein Generator

5.结合蛋白从头设计Nature Communication文章流程*

5.1.功能表位的选取

5.2.带限制条件的骨架生成

5.3.迭代优化

6.荧光素酶结构从头设计

6.1.Theozyme理论解释

6.2.骨架生成策略

6.3.活性位点设计与活性进化

五、面向功能的蛋白质序列设计

1.语言的深度学习建模方法

1.1.Transformer

1.2.BERT: Bidirectional Encoder Representations from Transformers

1.3.GPT: Generative Pre-trained Transformers

2.蛋白质语言模型的代表：ESM

2.1.模型框架

2.2.ESM系列工作：ESM-1/2，MSA Transformer，ESM3

2.3.ESM模型实际操作*

3.基于蛋白质语言模型的功能蛋白设计

3.1.预训练+微调的范式

3.2.条件式生成模型：Progen与ZymCTRL

3.3.Progen案例分析

3.4.上手微调ZymCTRL*

4.非自回归的序列生成模型

4.1.ProteinGAN：生成序列

4.2.DeepEvo：生成耐热酶

4.3.Prot-VAE

4.4.P450Diffusion：基于扩散模型设计功能P450*

5.功能蛋白生成后的评估指标

5.1.天然序列相似性评估*

5.2.多样性评估*

5.3.结构合理性评估*

六、基于深度学习的蛋白质挖掘与改造应用

1.酶学性质预测

1.1.DLKcat与GotEnzyme数据库介绍

1.2.UniKP：利用预训练模型挖掘、改造Kcat*

1.3.CLEAN：基于对比学习的EC号预测挖掘稀有脱卤酶*

2.蛋白质热稳定性改造

2.1.MutCompute介绍

2.2.利用MutCompute改造PETase（Nature）*

2.3.ThermoMPNN介绍与使用*

2.4.Pythia介绍与使用*

3.机器学习辅助定向进化/蛋白质工程

3.1.零样本突变效应预测原理

3.2.零样本改造基因编辑酶*

3.3.Low-N策略用于蛋白质工程

3.4.预训练模型的Evo-tuning*

3.5.ECNet介绍

3.6.蛋白质相互作用中的突变效应预测

4.针对自己的实验数据，训练自己的神经网络*

4.1.神经网络训练框架

4.2.数据收集、整理

4.3.特征提取方式

4.4.预训练模型的选取

4.5.模型训练、测试

4.6.新突变的预测

5.深度学习辅助的新酶挖掘*

5.1.基因编辑脱氨酶挖掘（Cell工作复现）

5.2.耐热塑料水解酶挖掘（Nature Communications

5.3.使用FoldSeek进行基于结构的挖掘

可以上下滚动查看

AIDD人工智能药物设计与发现

第一天

1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境

(1)anaconda

(2)vscode

(3)pycharm

(4)虚拟环境

4.第三方库基本使用方法

(1)numpy

(2)pandas

(3)matplotlib

(4)requests

5.多种药物综合数据库的获取方式

(1)KEGG（requests爬虫）

(2)Chebi（libChEBIpy）

(3)PubChem（pubchempy / requests）

(4)ChEMBL（chembl_webresource_client）

(5)BiGG（curl）

(6)PDB（pypdb）

第二天 ML-based AIDD

1.机器学习

(1)机器学习种类：

①监督学习

②无监督学习

③强化学习

(2)典型机器学习方法

①决策树

②支持向量机

③朴素贝叶斯

④神经网络

⑤卷积神经网络

(3)模型的评估与验证

(4)分类评估：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算

(5)回归评估：平均绝对误差、均方差、R2分数、可释方差分数

(6)交叉验证

2.sklearn工具包基本使用

3.rdkit工具包的基本使用

4.化合物编码方式和化合物相似性理论知识

5.项目实战1：基于ADME和Ro5的分子筛选

6.项目实战2：基于化合物相似性的配体筛选

7.项目实战3：基于化合物相似性的分子聚类

8.项目实战4: 基于机器学习的生物活性预测

9.项目实战5：基于机器学习的分子毒性预测

第三天 GNN-based AIDD

1.图神经网络

(1)框架介绍: PyG，DGL，TorchDrug

(2)图神经网络消息传递机制

(3)图神经网络数据集设计

(4)图神经网络节点预测、图预测任务和边预测任务实战

2.论文精讲：DeepTox: Toxicity Prediction using Deep Learning

3.项目实战1：基于图神经网络的分子毒性预测

(1)SMILES分子数据集构建PyG图数据集

(2)基于GNN进行分子毒性预测

4.项目实战2：基于图神经网络的蛋白质-配体相互作用预测

(1)蛋白质分子图形化，构建PyG图数据集

(2)基于GIN进行网络搭建及相互作用预测

第四天 NLP-based AIDD

1.自然语言处理

(1)Encoder-Decoder模型

(2)循环神经网络 RNN

(3)Seq2seq

(4)Attention

(5)Transformer

2.项目实战1：基于自然语言的分子毒性预测

(1)SMILES分子数据集词向量表示方法

(2)基于NLP模型进行分子毒性预测

3.项目实战2：基于Transformer的有机化学反应产量预测（Prediction of chemical reaction yields using deep learning）

4.论文精读及代码讲解：《Mapping the space of chemical reactions using attention-based neural networks》

第五天 分子生成与药物设计

1.蛋白质数据库介绍与相关数据爬取

(1)PDB数据库

(2)UniProt数据库

2.蛋白质相关药物设计项目实战

项目实战 (1)：基于RDKit的生化反应与蛋白质基本处理

项目实战 (2)：基于序列的蛋白质属性预测

项目实战 (3)：基于结构的蛋白质属性预测

项目实战 (4)：基于NGLView可视化的蛋白质-配体相互作用

项目实战 (5)：基于机器学习的蛋白质-配体相互作用亲和力预测

项目实战 (6)：基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测

可以上下滚动查看

CADD计算机辅助药物设计(即报即学)

第一天上午

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白

-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例：筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点：柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2（CDK2）与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点：水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟（linux与gromacs使用安装）

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验：如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点：主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

可以上下滚动查看

深度学习基因组学

第一天

理论部分

深度学习算法介绍

1.有监督学习的神经网络算法

1.1全连接深度神经网络DNN在基因组学中的应用举例

1.2卷积神经网络CNN在基因组学中的应用举例

1.3循环神经网络RNN在基因组学中的应用举例

1.4图卷积神经网络GCN在基因组学中的应用举例

2.无监督的神经网络算法

2.1自动编码器AE在基因组学中的应用举例

2.2生成对抗网络GAN在基因组学中的应用举例

实操内容

1.Linux操作系统

1.1常用的Linux命令

1.2 Vim编辑器

1.3基因组数据文件管理,修改文件权限

1.4查看探索基因组区域

2.Python语言基础

2.1.Python包安装和环境搭建

2.2.常见的数据结构和数据类型

第二天

理论部分

基因组学基础

1.基因组数据库

2.表观基因组

3.转录基因组

4.蛋白质组

5.功能基因组

实操内容

基因组常用深度学习框架

1.安装并介绍深度学习工具包tensorflow, keras，pytorch

2.在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1安装并使用keras_dna处理各种基因序列数据如BED、GFF、GTF、BIGWIG、BEDGRAPH、WIG等

3.2使用keras_dna设计深度学习模型

3.3使用keras_dna分割训练集、测试集

3.4使用keras_dna选取特定染色体的基因序列等

4．深度神经网络DNN在识别基序特征中应用

4.1实现单层单过滤器DNN识别基序

4.2实现多层单过滤器DNN识别基序

4.3实现多层多过滤器DNN识别基序

第三天

理论部分

卷积神经网络CNN在基因调控预测中的应用

1.Chip-Seq中识别基序特征G4，如DeepG4

2.Chip-Seq中预测DNA甲基化，DeepSEA

3.Chip-Seq中预测转录调控因子结合，DeepSEA

4.DNase-seq中预测染色体亲和性，Basset

5.DNase-seq中预测基因表达eQTL，Enformer

实操内容

复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA，预测染色体亲和性Basset，基因表达eQTL

1.复现DeepG4从Chip-Seq中识别G4特征

2.安装selene_sdk，复现DeepSEA从Chip-Seq中预测DNA甲基化，非编码基因突变

3.复现Basset，从Chip-Seq中预测染色体亲和性

4.复现Enformer，从Chip-Seq中预测基因表达eQTL

第四天

理论部分

深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用

1.SNP微阵列中预测拷贝数变异CNV，DeepCNV

2.RNA-Seq中预测premiRNA，dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质，DeepFactor

实操内容

1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异

2.复现循环神经网络RNN工具dnnMiRPre，从RNA-Seq中预测premiRNA

3.复现DeepFactor，从蛋白序列中识别转录调控因子蛋白质

第五天

理论部分

深度学习在识别及疾病表型及生物标志物上的应用

1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType

2.从高维多组学数据中识别疾病表型，XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE

实操内容

1.复现DeepType，从METABRIC乳腺癌数据中区分乳腺癌亚型

2.复现XOmiVAE，从TCGA多维数据库中识别乳腺癌亚型

3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因

第六天

理论部分

深度学习在RNA测序数据中准确鉴别RNA编辑与DNA突变的应用

1.通过深度学习模型DeepDDR高效准确地从单个RNA测序数据中识别RNA编辑和DNA突变

2.介绍DEMINING框架的创新设计和应用

实操内容

1.数据筛选：筛选标准去除转录组数据中的测序和比对错误

2.提取高可信度的RNA编辑位点和相同数量的DNA突变位点，分别用于训练、验证和测试模型

3. 使用多个层次的卷积和池化操作，提取突变位点周围的序列和读段比对特征，增强模型对突变的识别能力

4.识别突变位点，并捕捉到更大范围内突变的上下文信息，以准确区分RNA编辑和DNA突变

5.对识别出的突变进行功能分析，评估其对宿主基因表达的影响，为潜在的疾病机制提供新的见解

6.利用迁移学习将DeepDDR模型应用于非灵长类RNA测序样本，展示其在不同物种中的适用性和有效性

可以上下滚动查看

机器学习代谢组学

第一天上午：

A1 代谢物及代谢组学的发展与应用

（1）代谢与生理过程；

（2）代谢与疾病；

（3）非靶向与靶向代谢组学；

（4）空间代谢组学与质谱成像（MSI）；

（5）代谢组学与药物和生物标志物；

（6）代谢流与机制研究。

A2 代谢通路及代谢数据库

（1）几种经典代谢通路简介；（2）三大常见代谢物库：HMDB、METLIN 和 KEGG;

（3）代谢组学原始数据库：Metabolomics Workbench 和 Metabolights.

A3 参考资料推荐

第一天下午：

A4 代谢组学实验流程简介

A5 色谱、质谱硬件与原理解析

（1）色谱分析原理与构造；

（2）色谱仪和色谱柱的选择；

（3）色谱的流动相：梯度洗脱法；

（4）离子源、质量分析器与质量检测器解析；

（5）质谱分析原理及动画演示；

（6）色谱质谱联用技术（LC-MS）；

第二天上午：

B1 代谢物样本处理与抽提

（1）各种组织、血液和体液等样本的提取流程与注意事项；

（2）代谢物抽提流程与注意事项；

（3）样本及代谢物的运输与保存问题；

B2 LC-MS 数据质控与搜库

（1） LC-MS 实验过程中 QC 和 Blank 样本的设置方法；

（2） LC-MS 上机过程的数据质控监测和分析；

（3）代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件；

（4） Xcms 软件数据转换、提峰、峰对齐与搜库；

第二天下午：

B3 R 语言基础

（1） R 和 Rstudio 的安装；

（2） Rstudio 的界面配置；

（3） R 中的基础运算和统计计算；

（4） R 中的包：包，函数与参数的使用；

（5） R 语言语法，数据类型与数据结构；

（6） R 基础画图；

B4 R 语言画图利器——ggplot2 包（1） ggplot2 简介

（2） ggplot2 的画图哲学；

（3） ggplot2 的配色系统；

（4） ggplot2 数据挖掘与作图实战；

第三天上午：机器学习

C1 有监督式机器学习在代谢组学数据处理中的应用

（1）人工智能、机器学习、深度学习的关系；

（2）回归算法：从线性回归、Logistic 回归与 Cox 回归讲起；

（3） PLS-DA 算法：PCA 降维后没有差异的数据还有救吗？

（4） VIP score 的意义及选择；

（5）分类算法：决策树，随机森林和贝叶斯网络模型；

C2 一组代谢组学数据的分类算法实现的 R 演练

(1) 数据解读；

(2) 演练与操作；

第三天下午：

C3 无监督式机器学习在代谢组学数据处理中的应用

（1）大数据处理中的降维；

（2） PCA 分析作图；

（3）三种常见的聚类分析：K-means、层次分析与 SOM

（4）热图和 hcluster 图的 R 语言实现；

C4 一组代谢组学数据的降维与聚类分析的 R 演练

(1) 数据解析；

(2) 演练与操作；

第四天上午：

D1 在线代谢组分析网页 Metaboanalyst 操作

（1）用 R 将数据清洗成网页需要的格式；

（2）独立组、配对组和多组的数据格式问题；

（3） Metaboanalyst 中的上游分析（原始数据峰提取、峰对齐与搜库）

（4） Metaboanalyst 的 pipeline 以及参数设置和注意事项；

（5） Metaboanalyst 的结果查看和导出；（6） Metaboanalyst 的数据编辑；

（7）全流程演练与操作。

第四天下午：

D2 代谢组学数据清洗与 R 语言进阶

（1）代谢组学中的 t、fold-change 和响应值；

（2）数据清洗流程；

（3） R 语言 tidyverse；

（4）数据预处理：数据过滤与数据标准化（样本的 Normalization 和代谢物的 Scaling）；

（5）代谢组学数据清洗演练；

第五天上午：

E1 文献数据分析部分复现（1 篇）

（1）文献深度解读；

（2）实操：从原始数据下载到图片复现；

（3）学员实操。

第五天下午：

E2 机器学习与代谢组学顶刊解读（3 篇）；

（1） Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变

化的小鼠脑组织代谢图谱类的文献；(数据库型)

（2） Nature communication 一篇胃癌患者血浆代谢组学使用机器学习得出预测模型用于胃

癌的诊断和预后的文献；(血液生物标志物型)

（3） Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的

文献。(机制研究型)

可以上下滚动查看

学习目标

01.深度学习蛋白质设计

本课程围绕蛋白设计基础与前沿工作展开讲述，从蛋白结构的预测与优化到蛋白的从头设计进行深度教学，本课程从零基础开始讲解，对基础知识进行详细讲解，并且会结合前沿文献讲解相关技术的应用。帮助学员们，通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则，并掌握蛋白质设计中的常见蛋白质设计算法的实际操作，具备基的蛋白质设计算法开发的基础能力及前沿视野。

02.AIDD人工智能药物发现与设计

本课程让学员了解药物发现的前沿背景，学习人工智能领域的各类常见算法，熟悉工具包的安装与使用，掌握一定的算法编程能力，能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作，具备一定的AIDD模型构建和数据分析能力

03.CADD计算机辅助药物设计

掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分子动力学全程实操、溶剂化分子动力学模拟

04.深度学习在基因组学中的应用

深入学习与了解深度学习基本框架与逻辑，同时掌握基本的生物信息学软件（Linux、R、python等）的使用，让学员能更好的应对基因组数据，挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制，更好的服务于自身的科学研究和探索的过程中。

05.机器学习代谢组学

1. 熟悉代谢组学和机器学习相关背景知识以及硬件和软件；2. 入门 R 语言和机器学习理论和常规

使用；3. 掌握代谢组学从样本处理到上下游数据分析以及出图的全流程；4. 能复现 CNS 及其子

刊级别杂志中代谢组学相关文章中的图片；5. 能灵活熟练地分析自己的代谢组数据

讲师介绍

AI蛋白质设计

主讲老师在国内顶尖课题组中从事人工智能蛋白质设计研究，目前的主要研究方向是蛋白质设计机器学习算法开发与应用，在蛋白质工程和生物相关算法开发有丰富的实战经验。已在Nature communications、ACS Catalysis等国际知名期刊和ICML等机器学习会议上发表论文数十篇

AIDD人工智能药物设计与发现

AIDD授课老师曹老师，有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学，深度学习，药物合成路径设计，药物不良反应等。发明专利5项，参与国家重点科研项目4项，发表SCI高水平论文10篇，包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

CADD计算机辅助药物设计

主讲老师来自国内高校、中科院等单位，老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究。

深度学习基因组学

主讲老师来自荷兰在读博士陈老师授课。在国内外学术刊物发表论文数篇，包括Nature Communication, Cell Regeneration等知名期刊，研究方向主要为染色质三维结构，生物信息学，发育生物学和遗传学等。利用多组学数据，通过深度学习算法进行数据分析和挖掘，包括ChIP-seq，ATAC-seq，RNA-seq，CNV等，解决并回答领域内多个基础的生物学机制。

机器学习代谢组学

主讲老师来自985高校神经科学博士，主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用（LC-MS）技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究，以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文1

深度学习基因组学

授课时间

#01-AI蛋白质设计

2024.12.27（19：00-22：00）

2024.12.28（13：30--17：00）

2024.12.29（09：00--11：30 -13：30--17：00）

2025.01.03（19：00-22：00）

2025.01.04（13：30--17：00）

2025.01.05（09：00--11：30 -13：30--17：00）

2025.01.10（19：00-22：00）

2025.01.11（13：30--17：00）

2025.01.12（09：00--11：30 -13：30--17：00）

#02-AIDD人工智能药物设计与发现

2024.12.28--2024.12.29（09：00--11：30 -13：30--17：00）

2025.01.04--2025.01.05（09：00--11：30 -13：30--17：00）

2025.01.11（09：00--11：30 -13：30--17：00）

#03-CADD计算机辅助药物设计

视频录像回放课（即报即学，含资料，软件，代码，PPT，进群解疑）

#04-深度学习基因组学

2024.12.28--2024.12.29（09：00--11：30 -13：30--17：00）

2025.01.02-2025.01.03（19：00-22：00）

2025.01.04-2025.01.05（19：00-22：00）

2025.01.11--2025.01.12（09：00--11：30 -13：30--17：00）

#05-机器学习代谢组学

2024.12.26——2024.12.27（晚上19:00-22:00）

2025.01.04-2025.01.05（09：00--11：30 -13：30--17：00）

2025.01.07-2025.01.10（19：00-22：00）

2025.01.11--2025.01.12（19：00-22：00）

年终培训费用超值福利

课程报名费用：

AI蛋白质设计直播课：

公费价：每人每班￥6880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥6480元（含报名费、培训费、资料费、提供课后全程回放资料）

AIDD药物发现与设计直播课

公费价：每人每班￥5880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥5480元（含报名费、培训费、资料费、提供课后全程回放资料）

计算机辅助药物设计回放课(即报即学)

公费价：每人每班￥4980元（含报名费、培训费、资料费、提供全程回放视频+资料+软件+进群解疑）

自费价：每人每班￥4580元（含报名费、培训费、资料费、提供课回放视频+资料+软件+进群解疑）

深度学习基因组学、机器学习代谢组学、

公费价：每人每班￥4980元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥4580元（含报名费、培训费、资料费、提供课后全程回放资料）

重磅优惠:

优惠1：

报二送一（同时报名两个班免费赠送一个学习名额赠送班任选）

两班同报：10880元（原价18640）

三班同报：14880元（原价23620）

报四赠二：17880元（原价32680）

五班同报：24880元（可免费学习一整年本单位举办的任意课程）

特惠二：28880元（可免费学习两整年本单位举办的任意课程）

优惠2：提前报名缴费可享受300元优惠（仅限十五名）

优惠3：报名直播课程可赠送往期课程回放（报多少赠双倍回放课）

（可点击跳转详情链接）：

回放一：本课程为视频课！机器学习生物医学培训！

回放二：本课程为视频课！单细胞空间转录组培训！

回放三：本课程为视频课！比较基因组学培训！

回放四：本课程为视频课！机器学习蛋白质组学培训

回放五：本课程为视频课！机器学习微生物组学培训

回放六：本课程为视频课！蛋白质晶体结构解析培训

回放七：本课程为视频课！CRISPR-Cas9基因编辑培训

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高!

腾讯会议实时直播解答|手把手带着操作

报名咨询方式（请二维码扫描下方微信）

微信：766728764

电子邮箱：m15238680799@163.com

电话：15238680799

引用往期参会学员的一句话：

发现真的是脚踏实地的同时需要偶尔仰望星空非常感谢各位对我们培训的认可！祝愿各位心想事成

合成生物产业动态

针对合成生物产业链的关键环节，知晓全球的相关最新动态。