重磅!DeepMind又放大招!
AlphaFold 在蛋白质预测领域一骑绝尘,AlphaFold 3 更是突破限制,实现了所有生命分子的预测,其发布时便有声音称,AlphaFold 3 的结构化预测与生成将加速AI驱动药物设计的发展。
如今,DeepMind 又放大招——发布用于新型蛋白质设计的 AlphaProteo
AlphaProteo是首个专为设计新型高强度蛋白质结合物的AI系统,它可以生成多种目标蛋白的结合物。该系统显著提升了成功率,甚至比现有方法强3至300倍。尤其是针对与癌症和糖尿病并发症相关的VEGF-A蛋白,AlphaProteo是首个设计成功结合物的AI工具。此外,它还能有效结合多种与感染、癌症、炎症和自身免疫疾病相关的蛋白质,例如BHRF1、SARS-CoV-2尖刺蛋白、IL-7Rɑ、PD-L1、TrkA和IL-17A等
AlphaProteo 成功设计了 7 个靶标的蛋白结合剂。包括两种病毒蛋白,BHRF1 和 SARS-CoV-2 刺突蛋白受体结合域 SC2RBD;以及 5 种参与癌症、炎症和自身免疫性疾病的蛋白,SC2RBD、IL-7Rɑ、PD-L1、TrkA、IL-17A 和 VEGF-A。实现了更高的实验成功率和比现有最佳方法高 3 到 300 倍的结合亲和力
对于 BHRF1 ,在 Google DeepMind Wet Lab 中进行测试时,88% 的候选分子成功结合。根据测试的靶标,AlphaProteo 结合剂的结合力平均比现有最佳设计方法强 10 倍;对于另一个靶标 TrkA,该团队设计的结合剂甚至比经过多轮实验优化的针对该靶标的最佳先前设计的结合剂更强!
作为2024年最值得期待的技术!
AI蛋白质设计资料与学习途径少之又少,特培训学习迫在眉睫!郑州清瑞信息科技有限公司联合清华大学、北京大学、西湖大学、浙江大学、中国科技技术大学、天津大学、协和药物研究所已经举办培训四十余期,参会学员达5000余人!学员好评极高!其中不乏有发表Nature、Cell、Science等国际顶刊!
主讲老师在国内顶尖课题组中从事人工智能蛋白质设计研究,目前的主要研究方向是蛋白质设计机器学习算法开发与应用,在蛋白质工程和生物相关算法开发有丰富的实战经验。已在Nature communications、ACS Catalysis等国际知名期刊和ICML等机器学习会议上发表论文数十篇
*涉及使用代码/计算工具的操作
1.基础概念
1.1.机器学习简介:从手写数字识别到大语言模型
1.2.蛋白质结构预测与设计回顾
1.3.Linux简介
1.4.代码环境:VS code和Jupyter notebook*
1.5.Python关键概念介绍*
2.常用的分析/可视化蛋白质及相关分子的方法
2.1.常用数据库与同源序列搜索和MSA构建
2.2.使用pymol和Mol*可视化蛋白质结构*
2.3.使用biopython与biotite分析生物序列与结构数据*
2.4.使用fpocket与point-site分析蛋白质结构口袋*
3.深度学习蛋白质设计与传统蛋白质设计之间的差异
3.1.深度学习的本质
3.2.传统方法:全原子能量函数Rosetta与统计势
3.3.深度学习:几何深度学习
3.4.深度学习与传统的物理方法的互补性
3.5.深度学习蛋白质设计的优越性
4.蛋白质语言模型
4.1.语言模型:从RNN到Transformers
4.2.理解蛋白质语言
4.3.生成式蛋白质语言模型
4.4.结构模型与语言模型的比较分析
5.基于深度学习的蛋白质功能与性质预测
5.1.蛋白质功能分类预测*
5.2.信号肽、跨膜区、亚细胞定位预测
5.3.蛋白质同源结构搜索
5.4.酶活性位点预测
1.传统蛋白质(复合物)结构预测
1.1.使用modeller、swiss-model进行同源建模
1.2.基于分子动力学的从头建模
1.3.分子对接加入非蛋白质部分,AutoDock Vina实际操作*
2.现代深度学习用于蛋白质结构预测
2.1.RaptorX:从计算机视觉到蛋白质结构
2.2.AlphaFold2
2.3.AlphaFold3:生成式结构预测
2.4.ESMFold:语言模型与结构预测的融合
3.AlphaFold2 原理回顾
3.1.从共进化到结构
3.2.注意力机制
3.3.EvoFormer
3.4.Structural Module
4.AlphaFold3 介绍
4.1.扩散模型
4.2.训练数据
4.3.AlphaFold3 的成绩与不足
5.AlphaFold2/3 实际操作与结果分析
5.1.AlphaFold2实操*
5.2.AlphaFold2分析*
5.3.AlphaFold server使用*
5.4.本地版的AlphaFold3*
5.5.AlphaFold3分析*
6.ESMFold
6.1.从语言模型到结构预测
6.2.什么时候使用ESMFold,什么时候使用AlphaFold
6.3.ESMFold使用*
1.传统的蛋白质序列设计
1.1.基于全原子力场*
1.2.基于统计势
2.融入结构知识的语言模型设计蛋白质序列
2.1.ESM-IF原理介绍
2.2.ESM-IF的应用*
3.基于CNN的序列设计
3.1.CNN原理简介
3.2.DenseCPD设计方法
3.3.有侧链构象的设计方法
4.基于GNN设计序列
4.1.ProteinMPNN 的成功经验分析
4.2.ProteinMPNN 的广泛应用
4.3.ProteinMPNN 实际操作*
5.其他的序列设计模型
5.1.ABACUS-R 简介与实际操作*
5.2.CarbonDesign 从结构预测来到序列设计去*
5.3.CARBonAra 环境感知的序列设计*
6.固定主链序列设计在功能蛋白设计中的应用
6.1.新骨架蛋白质表达量优化(Science文章复现)*
6.2.抗体亲和力优化(Science文章复现)*
6.3.结合进化信息的酶性质全方位优化(JACS文章复现)*
1.传统思路回顾
1.1.结构域拼接
1.2.SCUBA:无侧链的蛋白质力场
2.基于蛋白质表面几何深度学习的binder设计
2.1.masif原理简介
2.2.masif用于识别蛋白表面的PPI热点
2.3.masif设计binder
3.基于扩散模型的蛋白质骨架设计模型
3.1.FrameDiff:基于IPA的主链生成*
3.2.Chroma:等变图神经网络结构设计
3.3.RFDiffusion:基于RosettaFold
3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom
4.序列-结构共设计
4.1.trDesign
4.2.AlphaFold Hallucination
4.3.Rfjoint
4.4.Protein Generator
5.结合蛋白从头设计Nature Communication文章流程*
5.1.功能表位的选取
5.2.带限制条件的骨架生成
5.3.迭代优化
6.荧光素酶结构从头设计
6.1.Theozyme理论解释
6.2.骨架生成策略
6.3.活性位点设计与活性进化
1.语言的深度学习建模方法
1.1.Transformer
1.2.BERT: Bidirectional Encoder Representations from Transformers
1.3.GPT: Generative Pre-trained Transformers
2.蛋白质语言模型的代表:ESM
2.1.模型框架
2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3
2.3.ESM模型实际操作*
3.基于蛋白质语言模型的功能蛋白设计
3.1.预训练+微调的范式
3.2.条件式生成模型:Progen与ZymCTRL
3.3.Progen案例分析
3.4.上手微调ZymCTRL*
4.非自回归的序列生成模型
4.1.ProteinGAN:生成序列
4.2.DeepEvo:生成耐热酶
4.3.Prot-VAE
4.4.P450Diffusion:基于扩散模型设计功能P450*
5.功能蛋白生成后的评估指标
5.1.天然序列相似性评估*
5.2.多样性评估*
5.3.结构合理性评估*
1.酶学性质预测
1.1.DLKcat与GotEnzyme数据库介绍
1.2.UniKP:利用预训练模型挖掘、改造Kcat*
1.3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶*
2.蛋白质热稳定性改造
2.1.MutCompute介绍
2.2.利用MutCompute改造PETase(Nature)*
2.3.ThermoMPNN介绍与使用*
2.4.Pythia介绍与使用*
3.机器学习辅助定向进化/蛋白质工程
3.1.零样本突变效应预测原理
3.2.零样本改造基因编辑酶*
3.3.Low-N策略用于蛋白质工程
3.4.预训练模型的Evo-tuning*
3.5.ECNet介绍
3.6.蛋白质相互作用中的突变效应预测
4.针对自己的实验数据,训练自己的神经网络*
4.1.神经网络训练框架
4.2.数据收集、整理
4.3.特征提取方式
4.4.预训练模型的选取
4.5.模型训练、测试
4.6.新突变的预测
5.深度学习辅助的新酶挖掘*
5.1.基因编辑脱氨酶挖掘(Cell工作复现)
5.2.耐热塑料水解酶挖掘(Nature Communications
5.3.使用FoldSeek进行基于结构的挖掘
基于深度学习的通用型蛋白设计模型近几年来发展迅速,本课程围绕蛋白设计基础与前沿工作展开讲述,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程从零基础开始讲解,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。帮助学员们, 通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基的蛋白质设计算法开发的基础能力及前沿视野。
上午
背景与理论知识以及工具准备
1.PDB数据库的介绍和使用
1.1数据库简介
1.2靶点蛋白的结构查询与选取
1.3靶点蛋白的结构序列下载
1.4靶点蛋白的下载与预处理
1.5批量下载蛋白晶体结构
2.Pymol的介绍与使用
2.1软件基本操作及基本知识介绍
2.2蛋白质-配体相互作用图解
2.3蛋白-配体小分子表面图、静电势表示
2.4蛋白-配体结构叠加与比对
2.5绘制相互作用力
3.notepad的介绍和使用
3.1优势及主要功能介绍
3.2界面和基本操作介绍
3.3插件安装使用
下午
一般的蛋白
-配体分子对接讲解
1.对接的相关理论介绍
1.1分子对接的概念及基本原理
1.2分子对接的基本方法
1.3分子对接的常用软件
1.4分子对接的一般流程
2.常规的蛋白-配体对接
2.1收集受体与配体分子
2.2复合体预构象的处理
2.3准备受体、配体分子
2.4蛋白-配体对接
2.5对接结果的分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
虚拟筛选
1.小分子数据库的介绍与下载
2.相关程序的介绍
2.1 openbabel的介绍和使用
2.2 chemdraw的介绍与使用
3.虚拟筛选的前处理
4.虚拟筛选的流程及实战演示
案例:筛选新冠病毒主蛋白酶抑制剂
5.结果分析与作图
6.药物ADME预测
6.1ADME概念介绍
6.2预测相关网站及软件介绍
6.3预测结果的分析
拓展对接的使用方法
1.蛋白-蛋白对接
1.1蛋白-蛋白对接的应用场景
1.2相关程序的介绍
1.3目标蛋白的收集以及预处理
1.4使用算例进行运算
1.5关键残基的预设
1.6结果的获取与文件类型
1.7结果的分析
以目前火热的靶点
PD-1/PD-L1等为例。
2.涉及金属酶蛋白的对接
2.1金属酶蛋白-配体的背景介绍
2.2蛋白与配体分子的收集与预处理
2.3金属离子的处理
2.4金属辅酶蛋白-配体的对接
2.5结果分析
以人类法尼基转移酶及其抑制剂为例
3.蛋白-多糖分子对接
4.1蛋白-多糖相互作用
4.2对接处理的要点
4.3蛋白-多糖分子对接的流程
4.4蛋白-多糖分子对接
4.5相关结果分析
以α-糖苷转移酶和多糖分子对接为例
5.核酸-小分子对接
5.1核酸-小分子的应用现状
5.2相关的程序介绍
5.3核酸-小分子的结合种类
5.4核酸-小分子对接
5.5相关结果的分析
以人端粒
g -四链和配体分子对接为例。
操作流程介绍及实战演示
拓展对接的使用方法
1.柔性对接
1.1柔性对接的使用场景介绍
1.2柔性对接的优势
1.3蛋白-配体的柔性对接
重点:柔性残基的设置方法
1.4相关结果的分析
以周期蛋白依赖性激酶
2(CDK2)与配体1CK为例
2.共价对接
2.1两种共价对接方法的介绍
2.1.1柔性侧链法
2.1.2两点吸引子法
2.2蛋白和配体的收集以及预处理
2.3共价药物分子与靶蛋白的共价对接
2.4结果的对比
以目前火热的新冠共价药物为例。
3.蛋白-水合对接
3.1水合作用在蛋白-配体相互作用中的意义及方法介绍
3.2蛋白和配体的收集以及预处理
3.3对接相关参数的准备
重点:水分子的加入和处理
3.4蛋白-水分子-配体对接
3.5结果分析
以乙酰胆碱结合蛋白
(AChBP)与尼古丁复合物为例
分子动力学模拟(linux与gromacs使用安装)
1. linux系统的介绍和简单使用
1.1 linux常用命令行
1.2 linux上的常用程序安装
1.3体验:如何在linux上进行虚拟筛选
2.分子动力学的理论介绍
2.1分子动力学模拟的原理
2.2分子动力学模拟的方法及相关程序
2.3相关力场的介绍
3.gromacs使用及介绍
重点:主要命令及参数的介绍
4.origin介绍及使用
溶剂化分子动力学模拟的执行
1.一般的溶剂化蛋白的处理流程
2.蛋白晶体的准备
3.结构的能量最小化
4.对体系的预平衡
5.无限制的分子动力学模拟
6.分子动力学结果展示与解读
以水中的溶菌酶为例
蛋白-配体分子动力学模拟的执行
1.蛋白-配体在分子动力学模拟的处理流程
2.蛋白晶体的准备
3.蛋白-配体模拟初始构象的准备
4.配体分子力场拓扑文件的准备
4.1高斯的简要介绍
4.2 ambertool的简要介绍
4.3生成小分子的力场参数文件
5.对复合物体系温度和压力分别限制的预平衡
6.无限制的分子动力学模拟
7.分子动力学结果展示与解读
8.轨迹后处理及分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所,老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究,有十余年的研究经验。
1.AIDD概述及药物综合数据库介绍
2.人工智能辅助药物设计AIDD概述
3.安装环境
(1)anaconda
(2)vscode
(3)pycharm
(4)虚拟环境
4.第三方库基本使用方法
(1)numpy
(2)pandas
(3)matplotlib
(4)requests
5.多种药物综合数据库的获取方式
(1)KEGG(requests爬虫)
(2)Chebi(libChEBIpy)
(3)PubChem(pubchempy / requests)
(4)ChEMBL(chembl_webresource_client)
(5)BiGG(curl)
(6)PDB(pypdb)
1.机器学习
(1)机器学习种类:
①监督学习
②无监督学习
③强化学习
(2)典型机器学习方法
①决策树
②支持向量机
③朴素贝叶斯
④神经网络
⑤卷积神经网络
(3)模型的评估与验证
(4)分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
(5)回归评估:平均绝对误差、均方差、R2分数、可释方差分数
(6)交叉验证
2.sklearn工具包基本使用
3.rdkit工具包的基本使用
4.化合物编码方式和化合物相似性理论知识
5.项目实战1:基于ADME和Ro5的分子筛选
6.项目实战2:基于化合物相似性的配体筛选
7.项目实战3:基于化合物相似性的分子聚类
8.项目实战4: 基于机器学习的生物活性预测
9.项目实战5:基于机器学习的分子毒性预测
1.图神经网络
(1)框架介绍: PyG,DGL,TorchDrug
(2)图神经网络消息传递机制
(3)图神经网络数据集设计
(4)图神经网络节点预测、图预测任务和边预测任务实战
2.论文精讲:DeepTox: Toxicity Prediction using Deep Learning
3.项目实战1:基于图神经网络的分子毒性预测
(1)SMILES分子数据集构建PyG图数据集
(2)基于GNN进行分子毒性预测
4.项目实战2:基于图神经网络的蛋白质-配体相互作用预测
(1)蛋白质分子图形化,构建PyG图数据集
(2)基于GIN进行网络搭建及相互作用预测
1.自然语言处理
(1)Encoder-Decoder模型
(2)循环神经网络 RNN
(3)Seq2seq
(4)Attention
(5)Transformer
2.项目实战1:基于自然语言的分子毒性预测
(1)SMILES分子数据集词向量表示方法
(2)基于NLP模型进行分子毒性预测
3.项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)
4.论文精读及代码讲解:《Mapping the space of chemical reactions using attention-based neural networks》
1.分子生成模型
(1)循环神经网络RNN
(2)变分自动编码器VAE
(3)生成对抗网络GAN
(4)强化学习RL
2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》
3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》
AIDD授课老师老师,有十余年的计算机算法研究和程序设计经验。研究方向涉及生物信息学,深度学习,药物靶标识别,药物不良反应等。参与了国自然基金2项,主持了省厅级科研项目3项。一作身份发表SCI论文数篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊。
AI蛋白质设计授课时间
2024.09.21-2024.09.22 (09:00-11:30--13:30-17:00)
共计6天的课 通过腾讯会议直播 线上实操 提供全部录播
计算机辅助药物设计视频回放
共计全7天的视频课 提供全部录播+代码资料+PPT软件+进群解疑
AIDD人工智能药物发现与设计视频
共计全5天的视频课 提供全部录播+代码资料+PPT软件+进群解疑
课程报名费用:
AI蛋白质设计直播课:
公费价:每人每班¥6880元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥6480元 (含报名费、培训费、资料费、提供课后全程回放资料)
计算机辅助药物设计与AIDD药物发现与设计回放课:
公费价:每人每班¥4980元 (含报名费、培训费、资料费、提供全程回放资料,代码,PPT,进群解疑)
自费价:每人每班¥4580元 (含报名费、培训费、资料费、提供全程回放资料,代码,PPT,进群解疑)
重磅优惠:
报二送一(同时报名两个班免费赠送一个学习名额赠送班任选)
优惠1:
两班同报:10880元 (原价18640)
三班同报:14880元 (原价23620)
特惠一:24880元 (可免费学习一整年本单位举办的任意课程)
特惠二:28880元(可免费学习两整年本单位举办的任意课程)
优惠2:提前报名缴费可享受300元优惠(仅限十五名)
报名学习课程可赠送往期课程回放(报多少赠多少)
(可点击跳转详情链接):
1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握
3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!腾讯会议实时直播解答|手把手带着操作
联系人:叶老师
报名电话:13838281574 ( 微信同号)
邮箱:y13838281574@163.com
引用往期参会学员的一句话: