Nature发布重磅成果!他带领团队短期内连发10篇Nature!改写世界教科书!

文摘   2024-06-04 08:50   新加坡  

AlphaFold 2的推出在蛋白质结构建模及其相互作用方面引发了一场革命,使蛋白质建模和设计的应用范围扩大。在本文中,我们描述了我们的AlphaFold 3模型,该模型具有一个基本更新的基于扩散的架构,能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。新的AlphaFold模型显示出比以前的许多专业工具显著提高的准确性:蛋白质-配体相互作用的准确性远高于最先进的对接工具,蛋白质-核酸相互作用的准确性远高于核酸特异性预测器,以及抗体-抗原预测准确性远高于alpha fold-多聚体v2。这些结果表明,在单个统一的深度学习框架内,跨生物分子空间的高精度建模是可能的。

2024八大前沿火热技术

一、深度学习蛋白质设计

二、CADD计算机辅助药物设计

三、AIDD人工智能辅助药物发现

四、深度学习基因组学

五、CRISPR-Cas9基因编辑

六、机器学习代谢组学

七、单细胞多组学内容详情跳转链接

八、ATAC-Seq基础分析+高级分析+多组学分析(内容详情跳转链接)



以下为课程内容介绍


一、深度学习蛋白质设计

RECRUIT

 内容可向下滑动

第一天   Python编程基础

1. Python 基础

1.1Python 简介:了解Python的历史、特点和与其他编程语言的比较。

1.2安装和设置环境:安装Python,设置Python开发环境(如Anaconda、Jupyter notebook)。

1.3基本语法:数据类型(整数、浮点数、字符串、布尔值)、变量、基本运算符。

1.4控制结构:条件语句(if-else)、循环语句(for循环、while循环)。

1.5函数:定义函数、参数、返回值、作用域、递归。

1.6数据结构:列表、元组、字典、集合、操作和常用方法。

1.7文件操作:读写文件,文件与异常处理。

2. Python 进阶

2.1类和对象:面向对象编程基础,创建类,实例化对象,理解封装、继承和多态。

2.2模块和包:导入标准模块,使用第三方包,创建自定义模块和包。

2.3高级功能:列表推导式、生成器、迭代器、装饰器和匿名函数。

3. Python 在科学计算中的应用

3.1NumPy:数组创建、数组操作、数学计算、线性代数等。

3.2Matplotlib:基础图表、科学图形、图表定制。

4. 数据分析与可视化

4.1Pandas:数据结构(Series、DataFrame)、数据载入、数据清洗、数据统计、数据合并。

4.2数据可视化:使用 Matplotlib 和 Seaborn 进行高级数据可视化。

5. 蛋白质设计中的特定应用

5.1BioPython:序列处理、数据库访问、生物学数据的分析。

5.2脚本编写:自动化常见的蛋白质设计任务,如序列对比、结构预测。

5.3机器学习:使用Scikit-learn进行特征提取、模型训练、评估和优化。

6. 实战项目

61项目1:蛋白质序列数据分析,如统计特定序列的频率、可视化序列分布等。

6.2项目2:蛋白质结构预测,使用机器学习技术预测蛋白质的二级结构或功能位点。

6.3项目3:开发一个小型的蛋白质设计工具,集成数据处理、分析及可视化功能。

第二天  shell命令行操作基础

1. Shell环境简介

1.1什么是Shell:了解Shell是什么,以及它如何与操作系统交互。

1.2不同类型的Shell:Bash, Zsh, Tcsh的介绍。

1.3访问Shell:如何打开终端窗口,基础的命令行界面操作。

2. 基础命令

2.1文件系统操作:cd, ls, pwd, mkdir, rm, touch 等命令的使用。

2.2文件操作:cat, more, less, head, tail, grep, find等命令。

2.3权限和所有权:使用chmod, chown, chgrp改变文件的权限和所有权。

2.4文本处理:echo, cat, cut, sort, uniq, tr, awk, sed等工具的基本使用。

2.5归档和压缩:tar, gzip, gunzip, zip, unzip等命令。

3. Shell脚本编写

3.1创建和执行Shell脚本:如何编写一个简单的脚本并使其可执行。

3.2变量和数据类型:学习如何在脚本中定义和使用变量。

3.3流程控制:

3.4条件语句:if, else, elif, case等语句的使用。

3.5循环结构:for, while, until循环的使用。

3.6函数:如何定义和使用函数。

3.7输入和输出:处理用户输入和脚本输出。

3.8引用和转义字符:学习如何在命令行中正确使用单引号、双引号和转义字符。

4. 高级Shell编程

4.1调试Shell脚本:如何调试Shell脚本,包括设置和使用调试选项。

4.2正则表达式:基本正则表达式的应用,结合grep, sed, awk使用。

4.3环境管理:了解PATH和其他环境变量的作用和管理方法。

4.4脚本的安全性:编写安全的脚本以避免常见的安全问题。

5. 实用案例和项目

5.1数据备份脚本:创建一个自动备份你的重要文件的脚本。

5.2文件整理脚本:编写一个自动整理下载文件夹中文件的脚本。

5.3PDB文件分析脚本的编写

第三天 蛋白质设计基础: 从经典力场到深度学习

1. 如何计算蛋白质构象的能量?

a) 蛋白质可视化与编辑常用方法

i. pymol使用方法简介

ii. chimera使用方法简介

iii. pdb文件格式详解

iv. 使用python biopython、pymol等库编辑蛋白质结构

b) 分子力学、溶剂化能简介

i. 分子力学公式形式

ii. 溶剂化能的计算方法

iii. MM/PBSA方法计算结合自由能

2. 基于统计势函数的蛋白质设计方法——Rosetta

a) 统计势函数的一般定义

b) 蛋白质设计中的统计势函数

i. Rosetta统计势定义

ii. Rosetta能量函数常见项及物理意义

c) 基于Rosetta势函数的蛋白设计

i. 设计流程

ii. 实验结果

3. 蛋白-蛋白对接的强大——无先验知识的蛋白质药物设计流程

a) 蛋白-蛋白对接简介

i. 蛋白-蛋白对接的定义

ii. RifGen对接方法介绍

b) 蛋白质药物设计

i. 设计流程

ii. 实验结果

4. 深度学习强势登场——蛋白质设计模型ProteinMPNN

a) MPNN 消息传递神经网络简介

b) ProteinMPNN模型简介

i. 模型结构介绍(输入、输出、参数……)

ii. 模型使用(主编程语言Python)

c) 基于ProteinMPNN的蛋白质设计

i. 设计流程

ii. 实验结果

5. 平分秋色还是天壤之别?两种蛋白设计方法的比较

a) 深度学习模型具有更高的序列恢复率

b) 深度学习模型可实现rosetta、alphafold不可完成的设计任务

c) 深度学习模型的短板

第四天 Alphafold vs Rosettafold

1.蛋白结构预测背景介绍

2.早期蛋白质结构预测算法:从统计分析到深度残差网络

2.1 直接耦合分析和互信息计算

2.2 深度残差网络和蛋白质接触图预测

2.3 蛋白质距离矩阵预测

3. 几何约束的梯度下降法到端到端深度学习的蛋白结构预测

3.1 trrosetta和alphafold简介

3.2 端到端几何深度学习方法介绍

4. AF和AF2的差异与创新

4.1 第一代Alphafold简介

4.2 Alphafold2详解

5. Rosettafold详解

5.1 SE3网络

第五天  基于Alphafold的下游应用

1. AF2多体蛋白结构预测的关键问题与解决途径

1.1 多序列比对中序列拼接配对问题

1.2 模板匹配问题

2. 利用AF2做蛋白和多肽柔性对接

2.1蛋白质表面几何物理化学互补问题

2.3 多肽柔性/构象处理

3. 利用AF2做蛋白结构和序列新设计

3.1 trrosetta幻想设计

3.2 AF2序列和结构幻想设计

4. 利用AF2做结构聚类发现新结构和功能

4.1 alphadatabase数据库结构简介与分析

4.2 foldseek结构比对工具介绍

4.3 新结构与新功能

5. 利用AF2做多构象预测和功能发现

5.1 MSA采样聚类分析及结构预测

5.2 不同MSA可以预测构象之间的转变和功能

6. 利用AF2的部分算法模块做模型质量评估和侧链构象等

6.1 三角机制提升蛋白质模型质量评估

6.2 局部三角机制和evoformer用于蛋白质侧链预测

第六天  蛋白质的从头生成模型

1. Rosettafold的基本架构回顾

2. 基于Rosettafold的改进

a) 有关扩散模型

b) 基于扩散模型的模型修改

3. RFdiffusion实现通用性蛋白结构生成

a) 蛋白质binder生成

b) 基于骨架结构的蛋白质结构生成

c) 蛋白质单体的从头生成

d) 多聚体蛋白的从头生成

4. ProteinGenerator实现蛋白质骨架与序列的co-design

a) 隐空间中的蛋白质序列-结构的联合分布

b) 与rfdiffusion的异同

5. Rosettafold AA实现多类生物大分子结构预测与生成

a) 加入小分子结构预测器

b) 将局部坐标系迁移到小分子结构

6. Chroma的基本构架与实现

a) 模型讲解

b) 利用chroma逼近蛋白构象空间全空间采样与生成

第七天  大语言模型在蛋白质设计中的应用及多肽设计

1. ProGEN的基本实现

a) 模型构架讲解

b) 与基于结构方法的比较

2. ProGEN的性能与改进 

3. ESM-fold的基本构架

a) ESM网络构架

b) ESMfold网络讲解

c) 与alphafold方法的对比

4. ESM-fold的性能评估

5. 基于大语言模型的蛋白质生成模型的下游应用

a) 蛋白质结构的快速预测

b) 大型蛋白复合物结构预测

6. 多肽设计与蛋白质设计的区别与联系

a) 分子结构稳定性

i. 二级结构含量

ii. 氢键网络与局部二级结构

b) 分子的功能性异同

c) 蛋白质设计方法在多肽设计面临的瓶颈

7. 多肽设计算法

a) 基于Rosetta实现多肽设计

i. Flexpepdock

ii. Anchor extension

b) 基于RF diffusion实现多肽设计

i. 参数的设定与优化方案

ii. 生成结构的评估

c) 基于alphafold 梯度下降进行多肽骨架和序列设计

d) 多肽对接算法

i. 基于Autodock 的多肽对接

ii. 基于alphafold的多肽柔性对接

iii. 其余对接算法

8. 基于多肽蛋白复合物训练的深度学习多肽设计算法





深度学习蛋白质设计课程目标

目标:基于深度学习的通用型蛋白设计模型近几年来发展迅速,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程从零基础开始讲解,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基本的蛋白质设计算法开发的基础能力及前沿视野。


结构预测基础: 将学会通过生物信息学工具分析蛋白质序列,预测其二级结构和三维结构,并理解结构与功能之间的关联。

模型应用与评估: 将能够使用机器学习和深度学习模型进行蛋白质结构预测,同时学习如何评估模型的准确性和可靠性,选择正确的工具加以应用。

药物设计: 掌握与蛋白质结构预测相关的药物设计原理,学会设计靶向特定蛋白质的药物分子与多肽药物分子,理解蛋白类药靶相互作用的机制。




授课老师

授课老师



深度学习蛋白质设计:

主讲老师们来自国内最顶尖高校课题组,组内工作主要聚焦新型蛋白质设计与蛋白质结构预测算法开发与自动化药物高通量筛选方向,已在Nature Chemistry子刊, JCAS,Angew,JMC,JCTC等权威期刊上发表SCI检索论文20余篇

二、CADD计算机辅助药物设计

RECRUIT

 内容可向下滑动

第一天、药物设计基础

上午

背景与理论知识以及工具准备

1.课程背景简介

1.1药物设计简介

1.2基于结构靶向药物设计(SBDD)简介

1.3CADD简介

1.4CADD研究流程

1.5CADD与AIDD

2.靶点与配体构建

2.1靶点信息获取

2.1.1 PDB数据库

2.1.2 Uniprot数据库与AlphaFold DB

2.1.3 ESMfold与ESM Altas

2.1.4 AlphaFold 3原理

2.1.5 AlphaFold 3与AlphaFold2区别

2.2配体信息获取

2.2.1常见小分子数据库(Drug Bank、ZINC、ChEMBL等)

2.2.2利用Chemdraw手绘分子

下午

一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

2.6 对接结果可视化(以pymol为例)

2.6.1 pymol基本操作

2.6.2 相互作用绘制

2.6.3 pymol出图的设置

2.6.4 pymol wiki与pymol进阶

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天

虚拟筛选

1.linux操作系统简介

1.1linux系统基本命令介绍

1.2bash脚本批量化处理介绍

2.药物ADMET预测

3.基于GPU加速的分子对接工具

4.结果分析

第三天

CADD工具进阶

1.柔性对接

1.1基于物理模型的柔性对接

1.2基于AI的柔性对接

2.蛋白-蛋白对接

2.1基于物理模型的蛋白-蛋白对接

3.金属配体对接

4.共价对接

5.核酸对接

5.1RNA结构预测工具

5.2RNA对接工具

6.RF-AA与AlphaFold 3

第四天

分子动力学模拟(linux与gromacs使用安装)

1. linux系统的介绍和简单使用

1. 分子动力学的理论介绍

2. 分子动力学相关程序

2.1 CHARMM

2.2 Amber

2.3 Gromacs

2.4 openMM

2.5 NAMD

3. 相关力场介绍

4. MDtraj包的介绍与使用

第五天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1 高斯的简要介绍

4.2 ambertools的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.结合自由能mm-pbsa/mm-gbsa计算

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第六天

分子动力学进阶

1.膜蛋白分子动力学模拟

1.1膜蛋白数据库

1.2蛋白跨膜区域预测

1.3CHARMM-GUI使用

2.增强采样技术

2.1REMD与REST/REST2

2.2Plumed安装与使用

2.3aMD与GaMD

2.4基于AI的增强采样技术

第七天

变构蛋白与蛋白系综

1.变构药物

1.1变构蛋白简介

1.2变构蛋白数据库

1.3变构位点预测

1.4变构通路计算

2.蛋白系综

2.1蛋白系综分析

2.2蛋白系综预测

2.3靶向天然无规蛋白的药物设计






课程目标

RECRUIT

目标:深入了解计算机辅助药物设计(CADD)的整个研究过程,包括从靶点识别、分子建模到虚拟筛选和后续的实验验证等关键步骤、了解新兴技术如AlphaFold2和AlphaFold3这些技术的工作原理和应用领域,介绍CADD领域中的最新应用案例和研究成果将通过分析最新的研究论文和案例研究,理解当前CADD技术如何在实际药物研发中发挥作用



RECRUIT

授课老师



CADD计算机辅助药物设计:

主讲老师主讲吴老师来自国内顶尖985高校,组内工作主要聚焦新型药物设计、分子对接算法开发与自动化药物高通量筛选方向,已在PNAS,JMC,JCTC,JCIM等权威期刊上发表SCI检索论文15余篇

三、AIDD人工智能辅助药物发现与设计

RECRUIT

 内容可向下滑动

第一天、AIDD及编程基础

1. AIDD简介

(1) 药物发现与设计

(2) 基于配体的方法

(3) 基于结构的方法

2. 综合数据库

(1) 蛋白质

① 结构数据库PDB

② 结构显示Pymol

③ 序列数据库uniport

(2) 药物/小分子

① PubChem、ChEMBL

② Python批量化处理RdKit

(3) 相互作用

① PDBbind

② 结合位点的分析

3. 编程环境

(1) 管理第三方包:anaconda

(2) 集成性编程环境:pycharm

(3) 交互式编程环境:ipython notebook

4. 第三方库基本使用方法

(1) Numpy

① 数组、切片

② 简单的数据处理

(2) Pandas

① 表格化

② 矩阵操作

③ 大型数据分析

(3) Matplotlib

① 绘图

② 集成环境seaborn

(4) Pytorch:深度学习框架

5. 数据降维及方法

(1) 主成分分析(PCA)

(2) 独立分量分析(ICA)

(3) 等距特征映射(ISOMAP)

(4) T 分布随机近邻嵌入(t-SNE)

第二天人工智能基础

1. 机器学习的一般流程

(1) 定义函数

① 函数形式:输入变量、线性、非线性

② 具有可学习参数的函数

(2) 转换求解——损失函数:定义、实现、变体

(3) 迭代优化——梯度下降算法

2. 经典模型

(1) 线性及非线性映射:线性回归、逻辑回归

(2) 聚类:K近邻聚类

(3) 核方法:支持向量机

(4) 树方法:决策树、随机森林

(5) 神经网络:多层感知机

(6) 实验:scikit-learn基本调用

3. 卷积神经网络

(1) 卷积:卷积操作的基本流程、感受野、卷积可解释性

(2) 池化:维度变换的意义

(3) 3D卷积神经网络

4. 语义模型

(1) 循环神经网络:长程短记忆单元

(2) 序列对序列:端对端的序列映射

(3) 注意力机制:查询、键、值

(4) Transformer

5. 生成式模型

(1) 自编码机:编码和解码

(2) 对抗生成网络:生成器和辨别器

(3) 自监督学习

6. 对比学习

(1) 数据增强

(2) 对比损失

6.领域论文精讲

第三天、图神经网络

1. 图建模

(1) 图的基本概念

(2) 节点和边的特征表示

(3) 图、节点、边任务

2. 消息传播机制

(1) 邻居聚合:聚合函数、更新函数

(2) 常见聚合函数:GCN、GraphSAGE、GIN、GAT

(3) 图池化:最大、最小、平均、求和、层次化

3. 图神经网络集成框架

(1) PyG

(2) DGL

(3) 实验:PyG基本用法

4. 几何向量感知机

(1) 标量和向量

(2) 空间旋转不变性

(3) 几何向量融合

5. 图对比学习

(1) 图增强

(2) 对比损失

5.论文精讲

第四天、药物靶标相互作用建模

1. 药物靶标的基础知识

(1) 靶标的定义和分类

(2) 药物与靶标的结合方式

(3) 靶标的生理作用

2. 药物靶标相互作用理论模型

(1) 直接相互作用

① 锁-钥模型

② 配体诱导模型

③ 构象选择模型

(2) 间接相互作用

① 信号转导通路

② 蛋白质-蛋白质相互作用

3. 药物靶标的数据表示和特征提取

(1) 小分子的一般表示

① SIMLES、二维分子、三维结构

② 分子描述符:分子指纹

③ 基于分子特征的聚类

(2) 蛋白质的一般表示

① 序列、结构

② 结构图

(3) 特征选择与降维

4. 药物靶标亲和性预测

(1) 序列与序列建模

(2) 序列和结构建模

(3) 结构和结构建模

5. 模型解释与可解释性

(1) 可解释性模型的应用

(2) 解释性特征分析

6.案例论文精讲(两篇)

第五天、基于空袋的药物设计

1. 蛋白质结构与活性口袋

(1) 蛋白质的结构层级

(2) 口袋在药物设计中的作用和重要性

(3) 活性口袋的定义和特征

(4) 不同类型活性口袋的示例

2. 口袋的结构与功能

(1) 口袋的构成元素

(2) 口袋与配体的相互作用

(3) 口袋结构的动态性和可塑性

3. 口袋信息的表示与分析

(1) 口袋的定位

(2) 表面三角剖分

(3) 几何描述符

(4) 化学描述符

4. 蛋白质结构微环境

(1) 微环境的概念和分类

(2) 微环境的几何表征

(3) 微环境的物理化学特性分析

5. 基于口袋微环境的药物设计

(1) 药物与口袋微环境的相互作用

(2) 药物与口袋微环境的结合模式

(3) 药物设计中的口袋微环境优化策略

(4) 结合口袋微环境分析进行药物筛选与优化

(5) 案例分析

6.案例论文精讲(两篇)

课程目标

RECRUIT

目标:了解人工智能辅助药物发现和设计的前沿,学习人工智能模型,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力。



RECRUIT

授课老师



AIDD人工智能辅助药物发现与设计:

主讲老师李老师,副教授,省级拔尖青年人才,硕士生导师,专业负责人。长期从事以蛋白质为主要研究对象的人工智能和生物医药交叉研究。主持科研基金国家级3项、省部级4项。以第一或通讯作者身份在J. Chem. Inf. Model、Comput. Biol. Med、BMC Bioinform等计算生物学权威期刊上发表学术论文20余篇。

四、深度学习基因组学

RECRUIT

内容可向下滑动

第一章 深度学习基因组学: 从深度学习到基因组学(基础知识部分)

理论讲解部分:

1. 神经网络在有监督学习中的应用

1.1 基因组学中的全连接神经网络(DNN):介绍DNN的不同类型及其应用,例如用于预测基因表达水平,识别基因变异与疾病之间的联系。

1.2 基因组学中的卷积神经网络(CNN):阐述CNN在基因序列分析中的广泛应用,包括识别DNA序列中的调控元件和剪接位点。

1.3 基因组学中的循环神经网络(RNN):讨论RNN如何适用于序列数据处理,例如基因组序列的注释和基因结构预测。

1.4 神经网络的可解释性:探讨神经网络模型的工作原理及其预测结果的解释方法。

2. 无监督神经网络算法及其应用

2.1 基因组学中的自动编码器:解释自动编码器如何用于基因数据的降维、去噪和特征提取,以及如何揭示基因间的潜在联系。

 2.2 高维基因组数据的处理:介绍无监督学习方法在处理和分析高维基因组数据中的应用,包括降维技术和聚类算法。

3. Linux命令的常用操作

3.1 使用Vim编辑器:指导如何在Linux环境下使用Vim编辑器进行文本编辑,包括基本命令和高级功能。

3.2 Linux环境下的基因组数据文件管理:说明如何在Linux系统中管理基因组数据文件,涉及文件的查看、复制、移动和权限设置。

3.3 探索基因组区域:介绍如何使用命令行工具来查看和探索基因组中的特定区域。

4. Python编程基础

4.1 Python环境配置和包管理:介绍如何安装Python及其包,以及如何使用pip和conda等工具来管理Python环境。

4.2 Python中的数据结构和类型:讲解Python中常见的数据结构(如列表、字典、集合)和数据类型(如字符串、整数、浮点数)。

 5. 测序技术概述

5.1 一代测序技术:介绍一代测序技术的原理、特点及其在基因组学研究中的应用。

5.2 二代测序技术:阐述二代测序技术如何实现高通量测序,以及其在基因组学研究中的重要性。

5.3 单细胞测序技术:讲解单细胞测序技术的原理及其在基因组学研究中的应用和重要性。

实践操作部分:

6. 蛋白质大模型

6.1 蛋白质大模型的基本概念:介绍蛋白质大模型的定义和原理,以及它们在蛋白质结构预测和功能研究中的应用。

6.2 蛋白质大模型的应用:说明蛋白质大模型在蛋白质折叠、相互作用预测和药物设计中的重要作用。

6.3 蛋白质大模型的训练和优化:讨论蛋白质大模型的训练过程和优化技术,包括如何处理蛋白质数据和计算资源需求。

6.4 蛋白质大模型的可解释性与挑战:探讨蛋白质大模型在可解释性方面的挑战以及它们在实际应用中的局限性。

6. 实操:安装biopython,并使用biopython对序列进行一些基础操作

6.1 安装biopython:介绍如何在不同操作系统中安装biopython库。

6.2 使用biopython进行序列分析:通过实例演示如何使用biopython进行基因序列的读取、写入、分析和操作。

第二章: 从深度学习到基因组学(进阶部分)

理论讲解部分:

1. 实现深度神经网络

1.1 实现卷积神经网络(CNN):阐述CNN的基本构成和运作机制,并展示如何在主流深度学习框架中构建CNN模型。

1.2 实现多层感知机(MLP):介绍MLP的架构,包括其输入层、隐藏层和输出层的配置,以及激活函数的选用。

1.3 实现自编码器:探讨自编码器的架构和用途,包括其编码器与解码器的设计,以及在数据压缩和特征提取中的应用。

2. 实现传统机器学习算法

2.1 实现随机森林:解释随机森林算法的基本概念,包括决策树的构建和通过集成学习提升模型性能的方法。

2.2 实现支持向量机(SVM):阐述SVM的工作原理,特别是核技巧的使用和模型参数的选取。

2.3 实现k-近邻(k-NN)算法:介绍k-NN的基本原理,包括距离度量、邻居选择和决策规则。

2.4 传统机器学习理论概览:提供传统机器学习算法的全面介绍,包括监督与无监督学习的区别、模型评估技术等。

3. 基因组学软件的实践操作

3.1 安装序列比对软件BLAST:指导用户如何在不同操作系统上安装BLAST软件。

3.2 操作序列比对软件BLAST:通过示例演示BLAST软件的使用,进行序列比对。

3.3 解析BLAST比对结果:解释BLAST比对结果的解读方法,包括比对得分和序列相似度的评估。

4. 基因组数据库的下载与应用

4.1 下载和访问NCBI基因组数据:介绍如何从NCBI数据库获取基因组数据。

4.2 编程访问基因组数据库:展示如何利用编程语言如Python查询和访问基因组数据库。

4.3 自动化下载基因组数据:讲解如何使用API和脚本自动化下载基因组数据。

5. 基因组数据结合序列分类

5.1 序列数据编码:介绍将基因序列编码为数值格式,以便机器学习模型处理。

5.2 序列数据输入到神经网络:讲解如何将编码后的序列数据输入到神经网络中。

5.3 神经网络模型的训练与预测:指导如何训练神经网络进行序列分类,包括模型优化和性能评估。

实践操作部分:

6. 实践操作:针对上述理论知识,设计相关的实验和操作练习,包括但不限于以下内容:

6.1 使用TensorFlow或PyTorch等深度学习框架实现简单的CNN和MLP模型。

 6.2 在Python环境中使用scikit-learn库实现随机森林、SVM和k-NN算法。

 6.3 完成BLAST软件的安装和使用,通过实际案例练习序列比对和结果解析。

 6.4 使用Python编写脚本,实现从NCBI数据库自动下载和查询基因组数据的功能。

6.5 开发一个简单的基因序列分类项目,从序列编码到模型训练和预测的完整过程。

第三章: 从深度学习到基因组学(宏基因组部分)

理论讲解部分:

1. 组学的介绍

1.1 宏基因、16S、宏病毒等测序手段的介绍:介绍不同测序技术在组学研究中的应用,包括宏基因组、16S rRNA基因测序和宏病毒组测序等技术的原理和特点。

1.2 宏基因组从头拼接:讲解宏基因组从头拼接的基本概念,包括从头拼接的过程、常用的拼接软件和拼接结果的评估方法。

1.3 宏基因组的质控和去宿主:介绍在宏基因组研究中如何进行数据质量控制,以及如何去除宿主基因的干扰,包括常用的质控工具和去宿主策略。

2. 组学分析软件详解

2.1 R和RStudio软件的安装与配置:详细介绍R语言和RStudio集成开发环境的安装步骤,以及如何配置R环境以优化统计分析和数据可视化的工作流程。

2.2 Origin软件的安装与高级绘图技巧:除了安装Origin软件,还将深入探讨如何利用Origin进行高级科研绘图,包括自定义图形元素、颜色方案和布局设计。

2.3 Python绘图库的高级应用:除了基础的科研绘图注意事项,还将深入介绍Python中的matplotlib、seaborn等绘图库的高级功能,以及如何创建交互式图表和动态可视化。

3. 组学研究文章精选与深度解析

3.1 组学研究文章精选:精选组学领域的前沿研究文章,进行深入分析,探讨其科学问题、研究设计和创新点。

3.2 研究方法论的探讨:对选定文章的研究方法进行深入探讨,评估其科学性和可行性,以及如何将这些方法应用到自己的研究中。

3.3 组学研究的应用前景:分析组学研究在不同领域的应用前景,包括医学、农业、环境科学等,并讨论其如何应用到自己科研中。

实践操作部分:

4. 实践操作与案例分析

4.1 宏基因组数据分析流程:通过实际案例,深入学习宏基因组数据的分析流程,包括样本准备、测序、数据处理和结果解释。

4.2 R语言和RStudio的高级应用:在基础语法学习的基础上,通过RStudio进行更高级的数据分析和绘图训练,学习如何使用R进行统计建模和机器学习。

4.3 Origin绘图的实战案例:通过具体的科研数据,实践使用Origin进行复杂图形的绘制,包括多维度数据的可视化和动态图表的制作。

4.4 Python科研绘图的综合应用:结合实际科研需求,使用Python进行综合的科研绘图实践,学习如何将多个绘图库和工具结合使用,以提高数据可视化的效果和效率。

5. 文献阅读、分析与批判性思维

5.1 精选文献的深入讲解:选取组学领域的经典和前沿文献,进行深入讲解,分析其研究背景、方法、结果和结论。

5.2 文献阅读与批判性思维:分享文献阅读的策略,培养批判性思维,学会如何评估文献的质量,识别潜在的偏见和局限性。

5.3 研究方法和技术的深入解析:对选定文献中的研究方法和技术进行深入解析,探讨其科学原理、技术细节和实际操作步骤,以及如何将这些知识应用到自己的研究中。

第四章: 从深度学习到基因组学(数理统计部分)

理论讲解部分:

1. 高维数据降维和聚类

1.1 k-means,PCA等聚类和降维技术的介绍:介绍k-means聚类算法和主成分分析(PCA)降维技术的基本原理及应用场景。

1.3 高斯混合模型等相关统计知识的详解:详细解释高斯混合模型的原理和在数据聚类中的应用。

1.4 维度灾难:讨论高维数据所带来的挑战,包括维度灾难的概念及其对数据分析的影响。

1.5 t-SNE:介绍t-SNE(t-Distributed Stochastic Neighbor Embedding)技术的原理和在高维数据可视化中的应用。

2. 微生物群落相关性

2.1 网络分析概述之网络基础简介:介绍网络分析的基本概念,包括节点、边以及网络的基本性质。

2.2 网络拓扑结构-网络图的凝聚性特征:探讨网络图的结构特征,如凝聚性、中心性等,及其生物学意义。

2.3 CoNet的关联网络推断过程演示:介绍CoNet工具在推断微生物群落关联网络中的应用。

2.4 SparCc的微生物网络构建示例:详细说明SparCc如何被用于构建微生物关联网络。

2.5 SPIEC-EASI的微生物网络构建:解释SPIEC-EASI方法在微生物网络构建中的原理和步骤。

3. Motif相关荟萃介绍

3.1 手把手使用CNN实现序列中motif鉴定实现:介绍如何使用卷积神经网络(CNN)识别生物序列中的motif。

3.2 手把手使用CNN实现序列中m6A修饰鉴定实现:解释如何应用CNN在生物序列中识别m6A修饰的方法。

3.3 其他相关网络在序列中motif鉴定的实现:讨论除CNN外的其他深度学习模型在序列motif鉴定中的应用。

实践操作部分:

4. 高维数据降维和聚类的实操

4.1 实现k-means聚类和PCA降维:通过Python或R语言编写代码实现k-means聚类和PCA降维,并通过实际数据集练习这些技术。

4.2 使用t-SNE进行数据可视化:练习如何使用t-SNE技术对高维数据进行可视化表示。

5. 微生物群落相关性的网络分析实操

5.1 使用R包构建微生物关联网络:通过R语言的SpiecEasi包实践SparCc网络的构建。

5.2 网络分析软件的应用:练习使用CoNet、SPIEC-EASI等工具进行微生物群落关联网络的构建和分析。

6. Motif鉴定的实操练习

6.1 使用CNN识别生物序列中的motif:通过编程实践学习如何使用卷积神经网络模型识别序列中的motif。

6.2 实现序列中m6A修饰的鉴定:练习如何使用深度学习方法,特别是CNN,来识别和预测生物序列中的m6A修饰。

7. 该章节相关文献串讲

7.1 文献讨论会:选择与章节内容相关的重要文献,深入分析文献的方法、结果和结论。

7.2 文献阅读和总结:阅读并总结章节相关的科研文章,以加深对实际应用的理解。

第五章: 从深度学习到基因组学(前沿领域及手把手带你进行SCI论文选题写作投稿)

理论讲解部分:

1. 三维基因组学

1.1 三维基因组学研究进展:介绍三维基因组学的基本概念及其研究的历史和最新进展。

1.2 Hi-C和ChIA-PET等技术介绍:详细讲解Hi-C和ChIA-PET技术的原理、特点及其在三维基因组学中的应用。

1.3 三维基因组学及在疾病中的应用:探讨三维基因组学如何帮助理解疾病的发生发展机制。

2. 三代测序

2.1 三代测序技术的原理与特点:介绍三代测序技术的基本原理,包括其与前两代技术的不同之处及优势。

2.2 Basecalling在三代测序中的作用:讲解Basecalling的概念及其在三代测序数据处理中的重要性。

2.3 三代测序在基因组学中的应用:讲述三代测序技术如何被应用于基因组学的各个领域。

3. 论文写作与投稿

3.1 论文的选题:讨论如何根据当前科研趋势和个人研究兴趣选择合适的论文题目。

3.2 论文的写作技巧:介绍科学论文写作的基本原则和技巧,包括如何清晰地表达研究思想。

3.3 论文的规范格式:解释科研论文的标准结构和格式,以及如何正确引用文献。

3.4 如何选生物信息学投稿杂志:分享如何根据论文的研究领域和质量选择合适的杂志进行投稿。

3.5 Cover Letter的撰写:指导如何撰写Cover Letter以提高论文被接受的可能性。

3.6 学术规范和道德

6. 大模型

6.1 大模型的基本概念:介绍大模型的定义和基本原理,包括其在基因组组领域中的应用。

6.2 大模型在基因组学中的应用:说明大模型如何帮助基因组学研究,如基因注释、序列分析和复杂疾病的预测。

6.3 大模型的训练和优化:讨论大模型的训练方法和优化技术,包括如何处理大规模数据和计算资源的需求。

实践操作部分:

4. 三代测序数据分析实操

4.1 三代测序数据的预处理:介绍如何对三代测序数据进行质量控制和数据清洗。

4.2 Basecalling技术应用:介绍在三代测序数据处理中如何进行Basecalling,及其使用的软件和工具。

4.3 基因组组装与注释:讲解使用三代测序数据进行基因组组装和注释的方法和工具。

5. 论文写作与投稿实操

5.1 论文写作工具和软件的使用:介绍科研论文写作中常用的软件工具,例如文献管理软件和写作软件。

5.2 实践论文写作:实践如何撰写科学论文,包括结构安排、语言表达及图表制作等。

课程目标

RECRUIT

目标:将学习和掌握使用深度学习技术(包括DNN、CNN、RNN)在基因组学中的应用,如全基因组关联研究、变异检测、宏基因组、高维数据、三维基因组、大模型在基因组学中的应用、基因表达预测、三代测序等。

高级深度学习模型实现与优化:通过实际案例,能够独立实现、调优深度学习模型,并应用于复杂的基因组学数据分析中。

-基因组数据处理与分析技能:使用Linux命令、Python编程语言和生物信息学软件处理和分析基因组数据的能力。

总之,通过深入学习和研究基因组学与深度学习的结合,培养将为未来在生物医药、基因研究、生物信息学等领域的发展做出贡献,同时也为个人职业发展开辟广阔的前景




RECRUIT

授课老师



深度学习基因组学授课老师:

李老师来自顶尖985高校生命科学交叉学科专业,擅长深度学习和基因组交叉学科研究。第一作者在线发表Nature等期刊20余篇,担任BMC bioinformatics, plos one等多个杂志的审稿人

五、机器学习代谢组学

RECRUIT

内容可向下滑动

第一天

A1代谢物及代谢组学的发展与应用                            

(1) 代谢生理功能;

(2) 代谢疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢流与机制研究;

(6) 代谢组学与药物和生物标志物。

A2代谢组学实验流程简介

A3色谱、质谱硬件原理

(1) 色谱分析原理;

(2) 色谱的气相、液相和固相;

(3) 色谱仪和色谱柱的选择;

(4) 质谱分析原理及动画演示;

(5) 正、负离子电离模式;

(6) 色谱质谱联用技术;

(7)LC-MS的液相系统

A4代谢物样本处理与抽提

(1)组织、血液和体液样本的提取流程与注意事项;

(2)用ACN抽提代谢物的流程与注意事项;

(3)样本及代谢物的运输与保存问题;

第二天

B1代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 能量代谢通路;

(3) 三大常见代谢物库:HMDB、METLIN和KEGG;

(4) 代谢组学原始数据库:Metabolomics Workbench和Metabolights.

B2 LC-MS数据质控与搜库

(1)LC-MS实验过程中QC样本的设置方法;

(2)LC-MS上机过程的数据质控监测和分析;

(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;

(4)XCMS软件数据转换与提峰;

B3 R软件基础

(1)R和Rstudio的安装;

(2)Rstudio的界面配置;

(3)R的基本数据结构和语法;

(4)下载与加载包;

(5)函数调用和debug;

B4 ggplot2

(1)安装并使用ggplot2

(2)ggplot2的画图哲学;

(3)ggplot2的配色系统;

(4)ggplot2画组合图和火山图;

B5 学习资源分享

(1)代谢组学学习资料

(2)R语言学习资料

第三天

C1机器学习简介

(1)有监督学习与无监督学习

(2)生物信息中十大机器学习算法

C2无监督式机器学习在代谢组学数据处理中的应用

(1)大数据处理中的降维;

(2)PCA分析作图;

(3)三种常见的聚类分析:K-means、层次分析与SOM

(4)热图和hcluster图的R语言实现;

C3一组代谢组学数据的降维与聚类分析的R演练

(1)数据解析;

(2)演练与操作;

C4有监督式机器学习在代谢组学数据处理中的应用

(1)数据用PCA降维处理后仍然无法找到差异怎么办?

(2)PLS-DA找出最可能影响差异的代谢物;

(3)VIP score和coef的意义及选择;

(4)分类算法:支持向量机,随机森林

C5一组代谢组学数据的分类算法实现的R演练

(1)数据解读;

(2)演练与操作;

第四天

D1代谢组学数据清洗与R语言进阶

(1)代谢组学中的t、fold-change和响应值;

(2)数据清洗流程;

(3)R语言tidyverse

(4)R语言正则表达式;

(5)代谢组学数据过滤;

(6)代谢组学数据Scaling原理与R实现;

(7)代谢组学数据的Normalization;

(8)代谢组学数据清洗演练;

D2在线代谢组分析网页Metaboanalyst操作

(1)用R将数据清洗成网页需要的格式;

(2)独立组、配对组和多组的数据格式问题;

(3)Metaboanalyst的pipeline和注意事项;

(4)Metaboanalyst的结果查看和导出;

(5)Metaboanalyst的数据编辑;

(6)全流程演练与操作

第五天

E1机器学习与代谢组学顶刊解读(2-3篇);

(1)代谢组学和机器学习算法预测中国2型糖尿病的未来发展;

(2)机器学习与代谢组学相结合,为胃癌诊断和预后指明方向

(3)1-2篇代谢组学与转录组学和蛋白组学结合的文献。

E2文献数据分析部分复现(1篇)

(1)文献深度解读;

(2)实操:从原始数据下载到图片复现;

(3)学员实操。

课程目标

RECRUIT

目标:1.理解代谢生理功能和代谢疾病,熟悉技术及其应用。2.了解代谢组学实验流程、数据处理技巧,以及色谱、质谱和LC-MS技术。3.熟悉关键代谢通路和数据库,利用R软件进行分析和可视化。4.理解机器学习在代谢组学中的作用,掌握R语言进行分析。5.使用R语言进行数据清洗与分析,通过文献解读和复现增强研究创新能力



RECRUIT

授课老师



机器学习代谢组学授课老师:

代谢组学老师来自国内985高校,该技术已研究有十余年,有丰富的研究经验,熟悉蛋白质组学、转录组学、代谢组学的原理及数据分析流程,已发表数篇SCI,Nature等顶刊,有丰富的教学经验!

六、CRISPR-Cas9基因编辑

RECRUIT

内容可向下滑动

第一天课程内容

一.基因编辑工具介绍

1.正本清源:基因编辑和转基因

2.基因编辑工具先驱-ZFNs和TALENs

3.CRISPR系统家族介绍

4.CRISPR-Cas9的工作原理

5.CRISPR-Cas9介导基因敲除与敲入

6.CRISPR-Cas12、13的工作原理

7.如何选择合适的CRISPR系统?

8.基因克隆相关技术简介

9.Snapgene软件使用实操

第二天课程内容

1.CRISPR-Cas9系统敲除载体构建实操

a)sgRNA设计相关注意事项

b)辅助工具推荐

c)常规的构建方案

d)测序原理简介

e)测序数据分析

2.多基因编辑原理

3.多基因编辑载体构建实操

4.CRISPRa/CRISPRi(基因激活与基因抑制)

a)dCas9-PVPR系统介绍

b)dCas9-VP64/GI/SAM基因激活系统介绍

c)基因编辑招募系统介绍(Suntag/Moontag)

5.CRISPR系统的‘另类’应用

第三天课程内容

1.CBE系统的原理及其应用

a)CBE系统进化过程总结

b)基因组CBE编辑(植物育种/基因功能研究/临床治疗)

c)细胞器CBE编辑工具介绍

d)CBE系统的脱靶效应

e)新型CBE系统

2.ABE系统的原理及其应用

a)PACE和PANCE人工定向蛋白进化系统介绍及其他常规的蛋白进化技术

b)大肠杆菌正交进化系统

c)ABE系统的进化过程总结

d)ABE系统的‘另类’应用(基因失活/跳剪/介导C编辑)

3.双碱基编辑系统

a)SWISS/STEME/A&C-BEmax/SPACE/ACBE

b)双碱基编辑系统改造总结

4.其他类型的碱基编辑系统

a)糖基化酶介导碱基编辑

b)CGBE、AYBE、gGBE、TSBE

第四天课程内容

1.报告系统

2.原生质体制备与应用实操

3.细胞与基因编辑工具优化实操

4.RNA编辑系统

5.PE系统的原理

a)PE介导精准编辑

b)编辑效率的影响因素(骨架二级结构/PBS长度/RTT模板)

c)双pegRNA的原理及其应用(基因组大片段插入)

d)基因组大片段删除

第五天课程内容

1.PE系统的优化案例

2.PE系统的构建实操

a)引物设计工具的应用

b)载体构建实操

3.慢病毒包装与递送

4.其他递送系统

5.伦理与安全


课程目标

RECRUIT

目标:该课程从全局出发,从CRISPR-Cas9等前沿工具的基本原理,到这些技术在医学、农业等的实际应用,由浅入深,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。



RECRUIT

授课老师



CRISPR-Cas9基因编辑授课老师: 

主讲老师来自中国农业科学院,有十余年基因编辑研究经验,熟悉基因编辑在各个领域应用,在基因编辑系统的开发与优化深耕多年,已发表数十篇SCI,有丰富的教学经验!


课程特色

RECRUIT

线上授课时间和地点自由,建立专业课程群进行实时答疑解惑,理论+实操授课方式结合大量实战案例与项目演练,聚焦人工智能技术在药物设计、蛋白设计、基因组学领域的最新研究进展,课前发送全部学习资料,课后全程答疑达到即学即用效果;

完全贴合学员需求的课程体系设计,定期更新的前沿案例,由浅入深式讲解,课后提供无限次回放视频,免费赠送二次学习,发送全部案例资料,永不解散的课程群,可以与相同领域内的老师同学互动交流问题,让求知的路上不再孤单!

授课时间

RECRUIT

深度学习蛋白质设计时间:

2024.7.13----2024.7.14全天授课(上午9:00-11:30下午13:30-17:00)

2024.7.17----2024.7.18晚上授课(晚上19:00-22:00)

2024.7.20----2024.7.21全天授课(上午9:00-11:30下午13:30-17:00)

2024.7.27----2024.7.28全天授课(上午9:00-11:30下午13.30-17:00)

腾讯会议 线上授课(共七天授课时间 提供全程回放视频)


CADD计算机辅助药物设计时间:

2024.6.29----2024.6.30全天授课(上午9:00-11:30下午13:30-17:00

2024.7.01----2024.7.05晚上授课(晚上19:00-22:00

2024.7.06----2024.7.07全天授课(上午9:00-11:30下午13:30-17:00

2024.7.09----2024.7.10晚上授课(晚上19:00-22:00

腾讯会议 线上授课(共七天授课时间 提供全程回放视频)


AIDD人工智能辅助药物发现与设计时间:

2024.7.13----2024.7.14全天授课(上午9:00-11:30下午13:30-17:00

2024.7.17----2024.7.18晚上授课(晚上19:00-22:00

2024.7.20----2024.7.21全天授课(上午9:00-11:30下午13:30-17:00

腾讯会议 线上授课(共五天授课时间 提供全程回放视频)


深度学习基因组学:

2024.7.13----2024.7.14全天授课(上午9:00-11:30下午13:30-17:00

2024.7.17----2024.7.18晚上授课(晚上19:00-22:00

2024.7.20----2024.7.21全天授课(上午9:00-11:30下午13:30-17:00

腾讯会议 线上授课(共五天授课时间 提供全程回放视频)


CRISPR-Cas9基因编辑:

2024.7.13----2024.7.14全天授课(上午9:00-11:30下午13:30-17:00

2024.7.17----2024.7.18晚上授课(晚上19:00-22:00

2024.7.20----2024.7.21全天授课(上午9:00-11:30下午13:30-17:00

腾讯会议 线上授课(共五天授课时间 提供全程回放视频)


机器学习代谢组学:

2024.07.06----2024.07.07全天授课(上午9:00-11:30下午13:30-17:00

2024.07.10----2024.07.11晚上授课(晚上19:00-22:00

2024.07.13----2024.07.14全天授课(上午9:00-11:30下午13:30-17:00

腾讯会议 线上授课(共五天授课时间 提供全程回放视频)

课程费用

RECRUIT

深度学习蛋白质设计

课程报名费用

公费价:每人每班¥6880(包含会议费、资料费提供课后全程回放资料)

自费价:每人每班¥6480(包含会议费、资料费提供课后全程回放资料)


CADD计算机辅助药物设计、AIDD人工智能辅助药物发现与设计、深度学习基因组学、机器学习代谢组学、CRISPR-Cas9基因编辑ATAC-Seq基础分析+高级分析+多组学分析、单细胞多组学

课程报名费用

公费价:每人每班¥5680(包含会议费、资料费提供课后全程回放资料)

自费价:每人每班¥5380(包含会议费、资料费提供课后全程回放资料)


提前报名缴费可享受300元早鸟价优惠(仅限前十五名)


报名福利:

优惠一:报二赠一10880元(原价17040,可任选三门课学习)

优惠二:报四赠二18880元(原价34080,可任选六门课学习)

特惠:全部报名23880元(一年内单位免费学习本单位举办的任何课程包括后期新举办课程,不限次数)


课程福利:课程会定期更新前沿内容,参加本次课程的学员可免费参加一次本单位后期举办的相同专题课程(任意一期)


报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销






报名咨询联系方式


  


报名咨询方式(请二维码扫描下方微信)

      联系人:张老师

        报名电话:13141346157 ( 微信同号)

小林的实验方法记录本
或许我的实验方法可以帮到你~
 最新文章