喜讯!继David Baker 教授后国内首发蛋白质设计领域Nature!

文摘   2024-03-25 19:42   重庆  

人工智能(Artificial Intelligence,AI)已经在多个领域大放异彩并深入到我们的日常生活中。从围棋领域的AlphaGo到预测蛋白结构的AlphaFold,再到如今火遍全球的ChatGPT,人工智能作为一种新兴的颠覆性技术,正在逐步释放科技革命和产业变革积蓄的巨大能量,并深刻改变了人类的生活和思维方式。这不禁让我们感慨AI的无限可能。

著名蛋白质设计专家、华盛顿大学医学院 David Baker 教授利用人工智能技术彻底颠覆了蛋白质设计,在刚过去的2023年里,David Baker 教授团队发表了数十篇论文,其中在国际顶尖学术期刊 Nature 和 Science 就发表了5篇。


2023年2月22日,David Baker 团队在 Nature 发表论文,开发了可以从头设计人造荧光素酶的深度学习算法——Family-wide Hallucination,这是科学界首次基于深度学习的人工智能来创造全新的酶。
2023年4月20日David Baker 团队在 Science 发表论文,开发了一种基于强化学习的蛋白质设计软件,并证明了它有能力创造有功能的蛋白质。这一突破将开启蛋白质设计的新时代,对癌症治疗、再生医学、强效疫苗和可生物降解日用品都有积极影响。
2023年7月11日,David Baker 团队在 Nature 发表论文,开发并描述了一种能从头设计全新蛋白质的深度学习方法——RFdiffusion。该方法能生成各种功能性蛋白质,包括在天然蛋白质中从未见过的拓扑结构。 
2023年8月17日,David Baker 团队在 Science 发表论文该研究通过人工智能(AI)辅助设计,从头设计出一种铰链样蛋白质,这种铰链蛋白同时具有两种明确的构象,在与目标蛋白结合时显示出稳定的构象变化,因此可以根据这种特异性定制出“蛋白质开关”。这项工作为产生响应生物刺激的蛋白质开关提供了研究基础,为蛋白设计领域带来全新变革。
2023年12月18日,David Baker 团队在 Nature 发表论文,该研究报告了人工智能(AI)驱动的蛋白质从头设计最新进展,从头设计和生成具有皮摩尔亲和力的螺旋肽靶标的结合蛋白,实现了直接通过计算生成、无需任何实验优化的最高亲和力。

深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里显著地革新了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新有效药物。

深度学习在蛋白质设计领域的前沿研究主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路,并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一,深度学习在蛋白质设计领域的不断发展为新药研发、生物制药、生命科学研究等领域带来了许多创新和机会


计算机辅助药物设计,依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点,并参考其它类源性配体或天然产物的化学结构特征,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。CADD的应用可以加快靶点发现的速度,提高靶点发现的准确度,从而推进新药研发,特别是在食品、生物、化学、医药、植物、疾病方面应用广泛!

深度学习在许多领域都有应用,在生物信息学领域也不例外。和所有的深度学习一样,在基因组中进行深度学习首先也是要确定合适的训练数据集,选择合适的评价指标,这是建立有效的深度学习模型的重要步骤。训练集的构建应确保不会引入可能人为放大影响的偏差。越来越多的学术论文提出了深入研究基因组的方法和工具。功能基因组学是深度学习的主要应用领域,包括预测DNA和RNA结合蛋白以及增强子和顺式调控区的序列特异性、甲基化状态、基因表达和剪接控制。当深度学习应用于调控基因组学时,通过直接使用从现代计算机中的视觉和自然语言处理的架构是非常成功的。

单细胞测序技术的出现成为细胞生物学历程上的一个重要的转折点,它对于细胞类型定义、发育轨迹、细胞功能互作等研究提供了一个全新的视角。最受关注的单细胞组学无疑是单细胞转录组学,其技术在十年内飞速发展,单细胞多组学可真实反映同一个细胞内基因表达与表观调控内在联系,确定候选的调控元件及其靶基因的直接联系,从而定义独特细胞类型的调控元件和细胞状态,解释基因表达差异的原因,揭示与肿瘤、疾病相关基因调控网络及其背后调控机制

2024最热点的五大技术

一、深度学习蛋白质设计

二、CADD计算机辅助药物设计

三、AIDD人工智能辅助药物发现

四、深度学习基因组学

五、单细胞转录组学与表观组学














Science Technology


深度学习在蛋白质设计领域的前沿研究主要集中在蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用预测、蛋白质功能注释和蛋白质优化与筛选等方面。这些研究方向为开发新的功能性蛋白质和药物靶点提供了新思路,并在生物医学、药物研发和生物材料等领深度学习在蛋白质设计领域的应用被认为是当前的前沿研究方向之一,蛋白质结构预测与设计领域的未来将充满创新和跨学科的发展,为解决生物医学、生物工程和生物能源等方面的重大问题提供更多可能性。

蛋白质折叠和结构预测
:深度学习模型可以预测蛋白质的三维结构,这对理解蛋白质的功能和开展蛋白质设计至关重要。通过深度神经网络模型和注意力机制的应用,可以更准确地预测蛋白质的折叠和结构。
蛋白质序列设计
:深度学习可以用于预测蛋白质序列的功能和稳定性。通过神经网络模型和自然语言处理技术的结合,可以设计出具有特定功能和稳定性的蛋白质序列,例如酶活性、药物靶点等。
蛋白质-蛋白质相互作用预测
:深度学习模型可以预测蛋白质和蛋白质之间的相互作用,从而帮助设计新的蛋白质复合物和抗体。
蛋白质功能注释和预测
:深度学习可以进行蛋白质功能注释和预测,识别蛋白质的功能域、结构域和功能位点等。这有助于预测蛋白质的功能和相应的生物学作用。
蛋白质优化和筛选
:深度学习可以用于优化和筛选设计出的蛋白质。通过神经网络和生成对抗网络的应用,可以提高蛋白质的稳定性、可溶性和活性,以满足特定的设计要求。
蛋白质-蛋白质相互作用预测
:深度学习可用于预测蛋白质与蛋白质之间的相互作用,从而实现蛋白质和配体的高效率设计和筛选等。

近年来发过哪些顶刊以及方向:

Nature communications| 使用基于结构的残基偏好进行蛋白质设计

Nature biotechnology| 用于功能性蛋白质设计的机器学习

Scientific reports| Deep-WET:一种基于深度学习的方法,使用具有加权特征的词嵌入技术预测 DNA 结合蛋白

Cell Systems| 深度学习为蛋白设计开启了新时代

Nat. Comput. Sci| 基于深度学习的无rotamer蛋白质设计

Comput Struct Biotech| 深度学习用于蛋白质设计:从结构到序列与功能

本课程围绕蛋白设计基础与前沿工作展开讲述,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程主要面向有编程基础的学员,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。帮助学员们, 通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基本的蛋白质设计算法开发的基础能力及前沿视野。





















01

深度学习蛋白质设计课表

第一天 蛋白质设计基础: 从经典力场到深度学习

1. 如何计算蛋白质构象的能量?

a) 蛋白质可视化与编辑常用方法

i. pymol使用方法简介

ii. chimera使用方法简介

iii. pdb文件格式详解

iv. 使用python biopython、pymol等库编辑蛋白质结构

b) 分子力学、溶剂化能简介

i. 分子力学公式形式

ii. 溶剂化能的计算方法

iii. MM/PBSA方法计算结合自由能

2. 基于统计势函数的蛋白质设计方法——Rosetta

a) 统计势函数的一般定义

b) 蛋白质设计中的统计势函数

i. Rosetta统计势定义

ii. Rosetta能量函数常见项及物理意义

c) 基于Rosetta势函数的蛋白设计

i. 设计流程

ii. 实验结果

3. 蛋白-蛋白对接的强大——无先验知识的蛋白质药物设计流程

a) 蛋白-蛋白对接简介

i. 蛋白-蛋白对接的定义

ii. RifGen对接方法介绍

b) 蛋白质药物设计

i. 设计流程

ii. 实验结果

4. 深度学习强势登场——蛋白质设计模型ProteinMPNN

a) MPNN 消息传递神经网络简介

b) ProteinMPNN模型简介

i. 模型结构介绍(输入、输出、参数……)

ii. 模型使用(主编程语言Python)

c) 基于ProteinMPNN的蛋白质设计

i. 设计流程

ii. 实验结果

5. 平分秋色还是天壤之别?两种蛋白设计方法的比较

a) 深度学习模型具有更高的序列恢复率

b) 深度学习模型可实现rosetta、alphafold不可完成的设计任务

c) 深度学习模型的短板

第二天 Alphafold vs Rosettafold

1.蛋白结构预测背景介绍

2.早期蛋白质结构预测算法:从统计分析到深度残差网络

2.1 直接耦合分析和互信息计算

2.2 深度残差网络和蛋白质接触图预测

2.3 蛋白质距离矩阵预测

3. 几何约束的梯度下降法到端到端深度学习的蛋白结构预测

3.1 trrosetta和alphafold简介

3.2 端到端几何深度学习方法介绍

4. AF和AF2的差异与创新

4.1 第一代Alphafold简介

4.2 Alphafold2详解

5. Rosettafold详解

5.1 SE3网络

 第三天  基于Alphafold的下游应用

1. AF2多体蛋白结构预测的关键问题与解决途径

1.1 多序列比对中序列拼接配对问题

1.2 模板匹配问题

2. 利用AF2做蛋白和多肽柔性对接

2.1蛋白质表面几何物理化学互补问题

2.3 多肽柔性/构象处理

3. 利用AF2做蛋白结构和序列新设计

3.1 trrosetta幻想设计

3.2 AF2序列和结构幻想设计

4. 利用AF2做结构聚类发现新结构和功能

4.1 alphadatabase数据库结构简介与分析

4.2 foldseek结构比对工具介绍

4.3 新结构与新功能

5. 利用AF2做多构象预测和功能发现

5.1 MSA采样聚类分析及结构预测

5.2 不同MSA可以预测构象之间的转变和功能

6. 利用AF2的部分算法模块做模型质量评估和侧链构象等

  6.1 三角机制提升蛋白质模型质量评估

6.2 局部三角机制和evoformer用于蛋白质侧链预测

第四天  蛋白质的从头生成模型

1. Rosettafold的基本架构回顾

2. 基于Rosettafold的改进

a) 有关扩散模型

b) 基于扩散模型的模型修改

3. RFdiffusion实现通用性蛋白结构生成

a) 蛋白质binder生成

b) 基于骨架结构的蛋白质结构生成

c) 蛋白质单体的从头生成

d) 多聚体蛋白的从头生成

4. ProteinGenerator实现蛋白质骨架与序列的co-design

a) 隐空间中的蛋白质序列-结构的联合分布

b) 与rfdiffusion的异同

5. Rosettafold AA实现多类生物大分子结构预测与生成

a) 加入小分子结构预测器

b) 将局部坐标系迁移到小分子结构

6. Chroma的基本构架与实现

a) 模型讲解

b) 利用chroma逼近蛋白构象空间全空间采样与生成

第五天  大语言模型在蛋白质设计中的应用及多肽设计

1. ProGEN的基本实现

a) 模型构架讲解

b) 与基于结构方法的比较

2. ProGEN的性能与改进 

3. ESM-fold的基本构架

a) ESM网络构架

b) ESMfold网络讲解

c) 与alphafold方法的对比

4. ESM-fold的性能评估

5. 基于大语言模型的蛋白质生成模型的下游应用

a) 蛋白质结构的快速预测

b) 大型蛋白复合物结构预测

6. 多肽设计与蛋白质设计的区别与联系

a) 分子结构稳定性

i. 二级结构含量

ii. 氢键网络与局部二级结构

b) 分子的功能性异同

c) 蛋白质设计方法在多肽设计面临的瓶颈

7. 多肽设计算法

a) 基于Rosetta实现多肽设计

i. Flexpepdock

ii. Anchor extension

b) 基于RF diffusion实现多肽设计

i. 参数的设定与优化方案

ii. 生成结构的评估

c) 基于alphafold 梯度下降进行多肽骨架和序列设计

d) 多肽对接算法

i. 基于Autodock 的多肽对接

ii. 基于alphafold的多肽柔性对接

iii. 其余对接算法

8. 基于多肽蛋白复合物训练的深度学习多肽设计算法


02

课程目标

结构预测基础: 学生将学会通过生物信息学工具分析蛋白质序列,预测其二级结构和三维结构,并理解结构与功能之间的关联。

模型应用与评估: 学生将能够使用机器学习和深度学习模型进行蛋白质结构预测,同时学习如何评估模型的准确性和可靠性,选择正确的工具加以应用。

药物设计: 掌握与蛋白质结构预测相关的药物设计原理,学会设计靶向特定蛋白质的药物分子与多肽药物分子,理解蛋白类药靶相互作用的机制。

03

通过课程学习您将得到

基于深度学习的通用型蛋白设计模型近几年来发展迅速,本课程围绕蛋白设计基础与前沿工作展开讲述,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程主要面向有编程基础的学员,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。帮助学员们, 通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基本的蛋白质设计算法开发的基础能力及前沿视野。

SPORTS


02

CADD计算机辅助药物设计

课程目标

Science Technology

CADD计算机辅助药物设计:依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,特别是在食品、生物、化学、医药、植物、疾病方面应泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。

     计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,有十余年的研究经验。

01

CADD计算机辅助药物设计课表

第一天上午

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白

-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例      

02

课程目标

计算机辅助药物设计主要包含:PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等

03

培训对象

目前计算机辅助药物设计受众人体众多,列如CADD、药物设计、药学、药物研发、药物筛选、新药研发、药物化学、生物制药、免疫、天然产物、兽药研发,生物信息、中药药理、中药化学、网络药理、结构药理、食品安全、食品风味、食药研发、食品研发、抗肿瘤药物、肿瘤免疫、酶工程、遗传、抗体药物、农业工程、化学、有机合成、有机化学、结构生物、合成生物等众多科研人员。

SPORTS


AIDD人工智能药物发现与设计

课程目标

Science Technology

 AIDD人工智能药物发现与设计:是人工智能和机器学习技术使制药领域实现了现代化。目前机器学习和深度学习算法已被应用于多肽合成、虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重定位、多药理和生理活性等药物发现过程。可以很好的将传统的面向化学的药物发现与人工智能药物设计相结合。此外,世界各地的系统生物学和化学科学家与计算科学家合作,开发现代ML算法和原理,大大的可以促进药物的发现和开发。

    AIDD授课老师老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物靶标识别,药物不良反应等。参与了国自然基金2项,主持了省厅级科研项目3项。一作身份发表SCI论文数篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。

01

AIDD人工智能药物发现与设计课程内容

第一天

1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境

(1)anaconda

(2)vscode

(3)pycharm

(4)虚拟环境

4.第三方库基本使用方法

(1)numpy

(2)pandas

(3)matplotlib

(4)requests

5.多种药物综合数据库的获取方式

(1)KEGG(requests爬虫)

(2)Chebi(libChEBIpy)

(3)PubChem(pubchempy / requests)

(4)ChEMBL(chembl_webresource_client)

(5)BiGG(curl)

(6)PDB(pypdb)

第二天 ML-based AIDD

1.机器学习

(1)机器学习种类:

①监督学习

②无监督学习

③强化学习

(2)典型机器学习方法

①决策树

②支持向量机

③朴素贝叶斯

④神经网络

⑤卷积神经网络

(3)模型的评估与验证

(4)分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算

(5)回归评估:平均绝对误差、均方差、R2分数、可释方差分数

(6)交叉验证

2.sklearn工具包基本使用

3.rdkit工具包的基本使用

4.化合物编码方式和化合物相似性理论知识

5.项目实战1:基于ADME和Ro5的分子筛选

6.项目实战2:基于化合物相似性的配体筛选

7.项目实战3:基于化合物相似性的分子聚类

8.项目实战4:   基于机器学习的生物活性预测

9.项目实战5:基于机器学习的分子毒性预测

第三天 GNN-based AIDD

1.图神经网络

(1)框架介绍: PyG,DGL,TorchDrug

(2)图神经网络消息传递机制

(3)图神经网络数据集设计

(4)图神经网络节点预测、图预测任务和边预测任务实战

2.论文精讲:DeepTox: Toxicity Prediction using Deep Learning

3.项目实战1:基于图神经网络的分子毒性预测

(1)SMILES分子数据集构建PyG图数据集

(2)基于GNN进行分子毒性预测

4.项目实战2:基于图神经网络的蛋白质-配体相互作用预测

(1)蛋白质分子图形化,构建PyG图数据集

(2)基于GIN进行网络搭建及相互作用预测

第四天 NLP-based AIDD

1.自然语言处理

(1)Encoder-Decoder模型

(2)循环神经网络 RNN

(3)Seq2seq

(4)Attention

(5)Transformer

2.项目实战1:基于自然语言的分子毒性预测

(1)SMILES分子数据集词向量表示方法

(2)基于NLP模型进行分子毒性预测

3.项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)

4.论文精读及代码讲解:《Mapping the space of chemical reactions using attention-based neural networks》

第五天 分子生成与药物设计

1.分子生成模型

(1)循环神经网络RNN

(2)变分自动编码器VAE

(3)生成对抗网络GAN

(4)强化学习RL

2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》

3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》

02

课程目标

AIDD人工智能药物发现与设计课程:让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力。

04

深度学习基因组学

课程目标

Science Technology

 

基因组学深度学习基础与实践:学生将学习和掌握使用深度学习技术(包括DNN、CNN、RNN)在基因组学中的应用,如全基因组关联研究、变异检测和基因表达预测等。

高级深度学习模型实现与优化:通过实际案例,使学生能够独立实现、调优深度学习模型,并应用于复杂的基因组学数据分析中。

-基因组数据处理与分析技能:培养学生使用Linux命令、Python编程语言和生物信息学软件处理和分析基因组数据的能力。

总之,通过深入学习和研究基因组学与深度学习的结合,培养学生将为未来在生物医药、基因研究、生物信息学等领域的发展做出贡献,同时也为个人职业发展开辟广阔的前景


    授课老师,李老师 来自北京大学生命科学交叉学科专业,擅长深度学习和基因组交叉学科研究。第一作者在线发表Nature等期刊20余篇,担任BMC bioinformatics, plos one等多个杂志的审稿人
















01

深度学习基因组学课表


第一章 深度学习基因组学: 从深度学习到基因组学(基础知识部分)

理论讲解部分:

1. 有监督学习的神经网络算法

1.1 全连接深度神经网络DNN在基因组学中的应用:讲解DNN的一些种类和用处,比如DNN可以用于预测基因表达量、识别基因变异与疾病之间的关系等。

1.2 卷积神经网络CNN在基因组学中的应用:讲解CNN如何被广泛应用于基因序列分析,如怎么去识别DNA序列中的调控元件和基因剪接位点。

1.3 循环神经网络RNN在基因组学中的应用:讲解RNN怎么适用于处理序列数据,用于基因组序列的注释、预测基因结构等。

1.4 神经网络可解释性:介绍神经网络模型的内部工作机制和如何解释其预测结果,

2. 无监督的神经网络算法介绍和应用

2.1 自动编码器在基因组学中的应用:讲解自动编码器可用于基因数据的降维、去噪和特征提取,有助于揭示基因间潜在的关系。

2.2 高维数据的降维和聚类:介绍如何使用无监督学习方法处理和分析高维基因组数据,包括降维技术和聚类算法。

3. 常用的Linux命令

3.1 Vim编辑器:介绍如何使用Vim编辑器进行文本编辑,包括基础命令和高级特性。

3.2 基因组数据文件管理, 修改文件权限:讲解如何在Linux环境下管理基因组数据文件,包括文件的查看、复制、移动和权限修改。

3.3 查看探索基因组区域:介绍如何使用命令行工具查看和探索特定的基因组区域。

4. Python语言基础

4.1 Python包安装和环境搭建:介绍如何安装Python和管理Python环境,包括使用pip和conda等工具。

4.2 常见的数据结构和数据类型:讲解Python中常用的数据结构(如列表、字典、集合)和数据类型(如字符串、整型、浮点型)。

5. 测序技术的特点和介绍

5.1 一代测序技术的介绍:介绍一代测序技术的原理、特点和应用。

5.2 二代测序技术的介绍:介绍二代测序技术如何实现高通量测序,及其在基因组学研究中的应用。

5.3 单细胞测序数据的介绍:讲解单细胞测序技术的原理和它在基因组学研究中的重要性。

实践操作部分:

6. 实操:安装biopython,并使用biopython对序列进行一些基础操作

6.1 安装biopython:介绍如何在不同操作系统中安装biopython库。

6.2 使用biopython进行序列分析:通过实例演示如何使用biopython进行基因序列的读取、写入、分析和操作。

第二章: 从深度学习到基因组学(进阶部分

理论讲解部分:

1. 深度神经网络的实现

1.1 卷积神经网络的实现:介绍卷积神经网络(CNN)的基本结构和工作原理,以及如何在常见的深度学习框架中实现它。

1.2 多层感知机的实现:讲解多层感知机(MLP)的结构,包括输入层、隐藏层和输出层的设置,以及激活函数的选择。

1.3 自编码器的实现:介绍自编码器的结构和应用,包括编码器和解码器的设计,以及自编码器在数据压缩和特征学习中的应用。

2. 传统机器学习的实现

2.1 随机森林的实现:介绍随机森林算法的基本原理,包括如何构建决策树和如何通过集成多个决策树提升模型性能。

2.2 支持向量机的实现:解释支持向量机(SVM)的工作原理,包括核技巧的应用和模型参数的选择。

2.3 k-近邻的实现:讲解k-近邻(k-NN)算法的基本概念,包括距离度量、邻居选择和分类决策规则。

2.4 传统机器学习的理论介绍:提供对传统机器学习算法的整体概览,包括监督学习和无监督学习的区别、模型评估方法等。

3. 常用基因组学软件的实操

3.1 序列比对软件BLAST的安装:指导如何在不同操作系统中安装BLAST软件。

3.2 序列比对软件BLAST的实操:通过示例数据演示如何使用BLAST进行序列比对。

3.3 序列比对软件BLAST的结果解析:讲解如何解读BLAST比对结果,包括比对得分和序列相似性的评估。

4. 常用基因组数据库下载和使用

4.1 NCBI各个基因组数据的下载和访问:介绍如何从NCBI数据库下载基因组数据。

4.2 使用编程的方式访问基因组数据库:演示如何使用Python等编程语言访问和查询基因组数据库。

4.3 使用编程的方式下载基因组数据:讲解如何自动化下载基因组数据,包括使用API和脚本。

5. 结合基因组数据进行序列分类(原创性高)

5.1 序列的编码:介绍如何将基因序列数据编码为数值形式,使其适用于机器学习模型。

5.2 序列的输入神经网络:讲解如何将编码后的序列数据作为输入提供给神经网络模型。

5.3 模型的训练和预测:指导如何训练神经网络模型并进行序列分类预测,包括模型调优和评估。

实践操作部分:

6. 实践操作:针对上述理论知识,设计相关的实验和操作练习,包括但不限于以下内容:

6.1 使用TensorFlow或PyTorch等深度学习框架实现简单的CNN和MLP模型。

6.2 在Python环境中使用scikit-learn库实现随机森林、SVM和k-NN算法。

6.3 完成BLAST软件的安装和使用,通过实际案例练习序列比对和结果解析。

6.4 使用Python编写脚本,实现从NCBI数据库自动下载和查询基因组数据的功能。

6.5 开发一个简单的基因序列分类项目,从序列编码到模型训练和预测的完整过程。

第三章: 从深度学习到基因组学(宏基因组部分)

理论讲解部分:

1. 组学的介绍

1.1 宏基因、16S、宏病毒等测序手段的介绍:介绍不同测序技术在组学研究中的应用,包括宏基因组、16S rRNA基因测序和宏病毒组测序等技术的原理和特点。

1.2 宏基因组从头拼接:讲解宏基因组从头拼接的基本概念,包括从头拼接的过程、常用的拼接软件和拼接结果的评估方法。

1.3 宏基因组的质控和去宿主:介绍在宏基因组研究中如何进行数据质量控制,以及如何去除宿主基因的干扰,包括常用的质控工具和去宿主策略。

2. 组学分析软件详解

2.1 R和Rstudio软件的安装:介绍如何在不同操作系统上安装R语言和RStudio环境,以便进行统计分析和数据可视化。

2.2 Origin安装和绘图(箱线图等):讲解如何安装Origin软件,并使用其进行科研绘图,如箱线图、散点图等。

2.3 Python科研绘图注意事项:介绍在使用Python进行科研绘图时的注意事项,包括图形美化、数据表示和图形导出等。

3. 组学文章精选荟萃串讲:精选组学领域的代表性研究文章,对其研究内容、方法和结论进行详细解读,以帮助理解组学研究的最新进展和应用。

实践操作部分:

4. 实践操作

4.1 宏基因组数据分析实战:通过实际案例,练习从头拼接、质控和去宿主等宏基因组分析流程,包括使用相关软件和解析分析结果。

4.2 R语言和RStudio应用实践:完成R语言的基础语法学习,通过RStudio进行数据分析和绘图的实战训练,如如何利用ggplot2包绘制箱线图。

4.3 Origin绘图实战训练:通过实际数据,学习使用Origin软件进行科研绘图,包括图形的基本设置、美化和导出。

4.4 Python科研绘图实践:利用Python进行科研绘图的实践操作,包括使用matplotlib和seaborn库进行数据可视化,以及绘图过程中的优化技巧。

5. 文献阅读与讨论

5.1 讲解文献:文献阅读,选取组学领域的高影响力文章,进行深入讨论和分析。

5.2 文献阅读技巧分享:分享科研文献阅读和笔记整理的技巧,提高文献阅读的效率和深度。

5.3 研究方法和技术解析:对选定文章中的研究方法和技术进行详解,帮助理解其原理和应用场景。

第四章: 从深度学习到基因组学(数理统计部分)

理论讲解部分:

1. 高维数据降维和聚类

1.1 k-means,PCA等聚类和降维技术的介绍:介绍k-means聚类算法和主成分分析(PCA)降维技术的基本原理及应用场景。

1.3 高斯混合模型等相关统计知识的详解:详细解释高斯混合模型的原理和在数据聚类中的应用。

1.4 维度灾难:讨论高维数据所带来的挑战,包括维度灾难的概念及其对数据分析的影响。

1.5 t-SNE:介绍t-SNE(t-Distributed Stochastic Neighbor Embedding)技术的原理和在高维数据可视化中的应用。

2. 微生物群落相关性

2.1 网络分析概述之网络基础简介:介绍网络分析的基本概念,包括节点、边以及网络的基本性质。

2.2 网络拓扑结构-网络图的凝聚性特征:探讨网络图的结构特征,如凝聚性、中心性等,及其生物学意义。

2.3 CoNet的关联网络推断过程演示:介绍CoNet工具在推断微生物群落关联网络中的应用。

2.4 SparCc的微生物网络构建示例:详细说明SparCc如何被用于构建微生物关联网络。

2.5 SPIEC-EASI的微生物网络构建:解释SPIEC-EASI方法在微生物网络构建中的原理和步骤。

3. Motif相关荟萃介绍

3.1 手把手使用CNN实现序列中motif鉴定实现:介绍如何使用卷积神经网络(CNN)识别生物序列中的motif。

3.2 手把手使用CNN实现序列中m6A修饰鉴定实现:解释如何应用CNN在生物序列中识别m6A修饰的方法。

3.3 其他相关网络在序列中motif鉴定的实现:讨论除CNN外的其他深度学习模型在序列motif鉴定中的应用。

实践操作部分:

4. 高维数据降维和聚类的实操

4.1 实现k-means聚类和PCA降维:通过Python或R语言编写代码实现k-means聚类和PCA降维,并通过实际数据集练习这些技术。

4.2 使用t-SNE进行数据可视化:练习如何使用t-SNE技术对高维数据进行可视化表示。

5. 微生物群落相关性的网络分析实操

5.1 使用R包构建微生物关联网络:通过R语言的SpiecEasi包实践SparCc网络的构建。

5.2 网络分析软件的应用:练习使用CoNet、SPIEC-EASI等工具进行微生物群落关联网络的构建和分析。

6. Motif鉴定的实操练习

6.1 使用CNN识别生物序列中的motif:通过编程实践学习如何使用卷积神经网络模型识别序列中的motif。

6.2 实现序列中m6A修饰的鉴定:练习如何使用深度学习方法,特别是CNN,来识别和预测生物序列中的m6A修饰。

7. 该章节相关文献串讲

7.1 文献讨论会:选择与章节内容相关的重要文献,深入分析文献的方法、结果和结论。

7.2 文献阅读和总结:阅读并总结章节相关的科研文章,以加深对实际应用的理解。

第五章: 从深度学习到基因组学(前沿领域及手把手带你进行SCI论文选题写作投稿)

理论讲解部分:

1. 三维基因组学

1.1 三维基因组学研究进展:介绍三维基因组学的基本概念及其研究的历史和最新进展。

1.2 Hi-C和ChIA-PET等技术介绍:详细讲解Hi-C和ChIA-PET技术的原理、特点及其在三维基因组学中的应用。

1.3 三维基因组学及在疾病中的应用:探讨三维基因组学如何帮助理解疾病的发生发展机制。

2. 三代测序

2.1 三代测序技术的原理与特点:介绍三代测序技术的基本原理,包括其与前两代技术的不同之处及优势。

2.2 Basecalling在三代测序中的作用:讲解Basecalling的概念及其在三代测序数据处理中的重要性。

2.3 三代测序在基因组学中的应用:讲述三代测序技术如何被应用于基因组学的各个领域。

3. 论文写作与投稿

3.1 论文的选题:讨论如何根据当前科研趋势和个人研究兴趣选择合适的论文题目。

3.2 论文的写作技巧:介绍科学论文写作的基本原则和技巧,包括如何清晰地表达研究思想。

3.3 论文的规范格式:解释科研论文的标准结构和格式,以及如何正确引用文献。

3.4 如何选生物信息学投稿杂志:分享如何根据论文的研究领域和质量选择合适的杂志进行投稿。

3.5 Cover Letter的撰写:指导如何撰写Cover Letter以提高论文被接受的可能性。

3.6 学术规范和道德

实践操作部分:

4. 三代测序数据分析实操

4.1 三代测序数据的预处理:介绍如何对三代测序数据进行质量控制和数据清洗。

4.2 Basecalling技术应用:介绍在三代测序数据处理中如何进行Basecalling,及其使用的软件和工具。

4.3 基因组组装与注释:讲解使用三代测序数据进行基因组组装和注释的方法和工具。

5. 论文写作与投稿实操

5.1 论文写作工具和软件的使用:介绍科研论文写作中常用的软件工具,例如文献管理软件和写作软件。

5.2 实践论文写作:实践如何撰写科学论文,包括结构安排、语言表达及图表制作等。

 


SPORTS



05

单细胞转录组学与表观组学

课程目标

Science Technology


由于技术的缺陷,过去很长一段时间中人们对于细胞的研究停留在通过实验的角度进行观察和分析。单细胞测序技术的出现成为细胞生物学历程上的一个重要的转折点,它对于细胞类型定义、发育轨迹、细胞功能互作等研究提供了一个全新的视角。最受关注的单细胞组学无疑是单细胞转录组学,其技术在十年内飞速发展,单细胞多组学可真实反映同一个细胞内基因表达与表观调控内在联系,确定候选的调控元件及其靶基因的直接联系,从而定义独特细胞类型的调控元件和细胞状态,解释基因表达差异的原因,揭示与肿瘤、疾病相关基因调控网络及其背后调控机制。


授课专家:

主讲老师来自国内高校张老师授课。在国内外学术刊物发表论文数篇,包括Nature Communication, Cell Regeneration等知名期刊,研究方向为生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等
















01

单细胞转录组与表观组课表

习资料


《高通量测序技术原理》PPT

《Linux操作系统与基本命令》PPT

《单细胞组学技术发展进程和原理介绍》PPT

《单细胞组学技术在科研中的应用:设计思路》PPT

《单细胞组学和多组学整合分析思路和案例介绍》PPT

《ATAC-seq技术优势及应用思路》PPT

《CUT&Tag的实验分享及应用思路》PPT

需要半天的时间配置服务器和安装软件

第一天

基础入门理论与实操

R语言安装数据处理分析与绘图

1. R语言简介及安装,RStudio的安装及使用说明

2. R语言语法介绍及常用简单命令

3. 数据处理及统计

4. R语言画图及ggplot2简介

Linux命令简介与实操

1. Linux命令入门讲解及实操训练

2. Conda环境安装与简介

第二天

理论讲解:

1. ATAC-seq数据质控与高级分析

2. CUT&Tag数据质控与高级分析

实际操作:上机演示

1. ATAC-seq和CUT&Tag数据质控与高级分析

2. 个性化分析:Motif、转录因子等

3. MEME网页-Motif预测

4. 表观组的结果解读

第三天

单细胞组学专题理论与实操

单细胞建库原理与操作

1. 样本获取和保存

2. 单细胞实验处理、建库、测序

3. 获取单细胞表达矩阵(RNAseq流程)

实操内容

1. 10X官方单细胞软件Cellranger的讲解;

2. 质控基因和细胞;

3. 选取高可变基因;

4. 降维与分群;

5. Biomarker定义细胞类型;

6. 寻找差异基因;

6. 通过Seurat 合并多样本及消除样本异质性;

7. 通过harmony合并多样本及其消除样本异质性;

8. 通过GSEA对单细胞各个簇进行通路的功能富集分析。

第四天 单细胞高级分析

1. 单细胞转录因子(SCENIC)及其细胞通讯(Cellchart)的介绍

2. 单细胞拟时分析的简介

3. 利用AUCell对单细胞进行基因集打分的简介

4. 结合bulk WGCNA讲解单细胞scWGCNA的原理

实操内容:

1. 通过Monocle2软件对单细胞转录组进行拟时序的分析;

2. 利用AUCell的算法对单细胞进行基因集打分的实操

4. 利用cellchart软件对细胞互作进行分析。

5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(这里统一指模块分析)。

6. 全面解析SCENIC软件进行转录因子预测分析。

SPORTS




培训特色及福利

Technology _ 


1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答


授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!




授课时间及地点













深度学习蛋白质设计

2024.04.10------2024.04.11(晚上19:00-22:00)

2024.04.13------2024.04.14(上午9:00-11:30 下午13:30-17:00)

2024.04.20------2024.04.21(上午9:00-11:30 下午13:30-17:00)


CADD计算机辅助药物设计

2024.04.06(上午9:00-11:30 下午13:30-17:00)

2024.04.09------2024.04.12(晚上19:00-22:00)

2024.04.13------2024.04.14(上午9:00-11:30 下午13:30-17:00)

2024.04.16------2024.04.19(晚上19:00-22:00)


AIDD人工智能辅助药物发现与设计

2024.04.13------2024.04.14(上午9:00-11:30 下午13:30-17:00)

2024.04.16------2024.04.17(晚上19:00-22:00)

2024.04.20------2024.04.21(上午9:00-11:30 下午13:30-17:00)


深度学习基因组学

2024.04.06(上午9:00-11:30 下午13:30-17:00)

2024.04.09------2024.04.12(晚上19:00-22:00)

2024.04.13------2024.04.14(上午9:00-11:30 下午13:30-17:00)


单细胞转录组学与表观组学

2024.04.13------2024.04.14(上午9:00-11:30 下午13:30-17:00)

2024.04.20------2024.04.21(上午9:00-11:30 下午13:30-17:00)




培训费用及福利

课程报名费用:

深度学习蛋白质设计:
公费价:每人每班¥6880元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥6480元 (含报名费、培训费、资料费、提供课后全程回放资料)

CADD计算机辅助药物设计、AIDD药物发现与设计、
深度学习基因组学、单细胞转录组学与表观组学:
公费价:每人每班¥5880元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥5480元 (含报名费、培训费、资料费、提供课后全程回放资料)
重磅优惠:
报二送一(同时报名两个班免费赠送一个学习名额赠送班任选)
报四送二(同时报名四个班免费赠送两个学习名额赠送班任选)
优惠1:
两班同报:10880元  (原价18640)
三班同报:14880元   (原价23620)
四班同报:18880元   (原价35580)
五班同报:24880元 (可免费学习一整年本单位举办的任意课程)
特惠:(28880元可免费学习两整年本单位举办的任意课程)
优惠2:提前报名缴费可享受300元优惠(仅限十五名)
报名学习课程可赠送往期课程回放(报多少赠多少)

(可点击跳转详情链接):

回放一:机器学习生物医学

回放二:机器学习单细胞分析专题

回放三:单细胞空间转录组专题

回放四:比较基因组学专题

回放五:机器学习蛋白组学专题

回放六:机器学习微生物专题

回放七:蛋白质晶体结构解析

回放八:机器学习代谢组学技术

培训特色及福利






1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握

3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答


授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!



腾讯会议实时直播解答|手把手带着操作



学员对于培训给予高度评价



学员培训后投顶刊



报名联系方式




                        联系人:袁老师

                        联系方式:18737171433(微信同号)

                   

引用本次参会学员的一句话:

发现真的是脚踏实地的同时 需要偶尔仰望星空非常感谢各位对我们培训的认可!祝愿各位心想事成!

小林的实验方法记录本
或许我的实验方法可以帮到你~
 最新文章