首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

打破AlphaFold大模型局限，世界最大蛋白质相互作用数据集AlphaSeq横空出世

学术 2024-11-04 21:00 北京

新智元报道

编辑：乔杨

【新智元导读】虽然AlphaFold等系列的大模型已经在蛋白质预测方面取得了前所未有的突破，但依旧无法胜任蛋白质-蛋白质相互作用（PPI）这种复杂的任务。初创公司A-Alpha Bio的PPI数据集AlphaSeq，有望补足这方面的技术短板。

随着最近AlphaFold 3和ESM 3的相继推出，我们看到了深度学习在生物学领域的无限潜力。

然而，Dyno Therapeutics的高级机器学习工程师Abihishaike Mahajan在上个月发布的一篇博文中指出了潜在的增长危机。

他认为，AlphaFold系列所取得的成果，即将一个强大的深度学习模型应用于一个已经存在大量数据的领域，从而引发一场彻底的革命——这是极难复制的。

原因还是数据。我们几乎用尽了所有预先存在的数据，未经训练的蛋白质结构和序列正在枯竭，RNA和DNA也是如此。

要想进一步训练模型，发掘更多来源和模态的数据是必不可少的。Mahajan指出，理想情况下，这样的数据应该满足3个条件：

- 具有复杂的潜在分布

- 与重要的生理现象高度相关

- 适合大规模收集

在生物学领域，有很多数据可以满足前两个要求，比如蛋白形式测序、空间转录组学、体内测量和蛋白质-蛋白质相互作用等，但这类数据似乎很难大量采集、生成，形成规模化的数据集。

可喜的是，初创公司A-Alpha Bio最近做出了这方面的突破。

他们最近发布的AlphaSeq数据库专注于蛋白质-蛋白质相互作用（protein-protein interaction, PPI），包含了超过7.5亿条测量结果，构成了世界上最大的PPI数据集。

在AlphaSeq数据的基础上，训练出的AlphaBind模型可以准确预测有不同结合特性（亲和力、特异性、交叉反应性、表位等）的蛋白质序列，从而辅助蛋白质设计或发现全新的蛋白质。

此外，作为实验平台，AlphaSeq还能够同时定量测量数百万个PPI的结合亲和力，并快速得出结果，完美满足了规模化扩展的需求。

根据CTO Randolph Lopez的说法，他们目前每月执行约30次AlphaSeq检测，每次可以得到100k~5M个交叉点。这意味着，AlphaSeq数据库还在以每月3M~50M的速度快速扩展。

A-Alpha Bio这家初创公司也是大有来头。不仅有计算生物学领域的大牛David Baker作为科学顾问，联合创始人之一David Younger也是Baker实验室的校友。

David Baker是华盛顿大学教授、蛋白质研究所所长。他领导团队从头开发的Rosetta算法奠定了用深度学习方法预测蛋白质结构的基础，揭开了AlphaFold和ESMFold的帷幕。

A-Alpha Bio成立于2017年，根据CrunchBase的数据，他们已经融资64.1M美元，旨在通过合成生物学和机器学习技术来测量、发现、预测和设计蛋白质-蛋白质相互作用，从而加速药物开发的进程。

补足AlphaFold

提到蛋白质相关的预测，你估计会疑惑：AlphaFold还不够强大吗，为什么还需要开发新的数据和模型？

很遗憾，AlphaFold的确不够强大，因为要了解蛋白质的相互作用（PPI）是一个相当复杂且困难的任务。

比如，要预测含有13个氨基酸的多肽与受体的结合效果，需要十多个不同的种子反复运行AlphaFold，以及MSA子采样和其他一系列「技巧」，模型才能给出「某种程度上」正确的结构。

这个任务之所以如此复杂，主要源于PPI的复杂性。即使规定了蛋白质间作用力的空间，可能的结构数量也会随氨基酸数量呈指数级增长。

其中，分子构象的灵活性会导致不可预测的结合模式，并且潜在的相互作用表面的组合数量也会爆炸。

如果有足够的训练数据，模型也许能逐渐增强预测能力，应对问题的复杂性。

然而，传统的PPI数据规模相当有限，比如今年1月刚刚发布的PDBbind+数据集，总共只包含3176个蛋白质-蛋白质复合物，远远无法满足生产级的蛋白质设计需求。

AlphaSeq所用的方法，起源于Baker实验室在2017年发表的一篇论文，描述了A-Alpha Bio对PPI数据进行大规模收集和表征的基本方法。

论文地址：https://www.pnas.org/doi/10.1073/pnas.1705867114#sec-1

酵母细胞立大功

出乎意料的是，AlphaSeq的原理是利用了酵母细胞的配对过程。

酵母细胞由两种类型的配子：MATa和MATα，它们在自然界中能够寻找到彼此并融合成为二倍体细胞。

这个过程就是由MATa细胞上的Aga2蛋白和MATα细胞上的Sag1蛋白所介导的。当这些蛋白质相互作用时，它们会导致细胞粘在一起，促进配对并形成二倍体细胞。

AlphaSeq正是利用了这个自然过程。研究人员对酵母细胞进行基因改造，让相关的蛋白质暴露在细胞表面，MATa细胞搭载一组蛋白质，而MATα细胞搭载另一组蛋白质。

将改造过的细胞进行混合时，它们配对的可能性就取决于表面蛋白质相互作用的强度。

那么如何快速测量数千万个蛋白质对之间的相互作用呢？答案是DNA编码库（DNA-encoded library）。

酵母细胞表面的每种蛋白质都与一个独特的「DNA条形码」相关联。当两个酵母细胞配对时，这些条形码会在生成的二倍体细胞中聚集在一起。

通过一些基因工程的操作，这些DNA条形码最终会位于同一条染色体上的相邻位置。

在此基础上，我们就可以提取细胞DNA进行测序，两个DNA条形码相邻的频率就与两种蛋白质相互作用的强度直接相关。

值得注意的是，将整个平台都建立在酵母细胞上，可能存在根本限制。虽然酵母细胞表达的蛋白质和人体内的蛋白质之间具有高度可翻译性，但两者的翻译后修饰依旧存在差异。

翻译后修饰的差别可能会影响蛋白质的折叠，从而影响结合。

目前我们尚不清楚A-Alpha Bio如何将收集的数据从酵母迁移到人类细胞，但他们已经对一些蛋白质的可翻译性进行了验证。这种方法至少总体上是可行且有效的。

应用前景

遗憾的是，A-Alpha Bio目前还没有发布AlphaSeq的最新论文，关于AlphaBind模型的信息也十分有限。

但根据Mahajan文章的分析，该公司一系列产品有相当的应用前景。

对疾病治疗领域而言，可以帮助设计免疫细胞因子等药物；与大型制药公司合作，也可以帮助「分子胶」的开发。

使用AlphaSeq平台进行细胞因子亲和力调整来生成靶向免疫肿瘤治疗药物

参考资料：

https://www.owlposting.com/p/creating-the-largest-protein-protein

https://www.owlposting.com/p/wet-lab-innovations-will-lead-the

https://www.pnas.org/doi/10.1073/pnas.1705867114

高颜值免费 SCI 在线绘图(点击图片直达)

最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247584242&idx=1&sn=b898b57848001d1bbcdfa8b87a7fa1bc

学生信最好的时间是十年前，其次是现在！10年经验分享尽在生信宝典！

最新文章

JACS最新| 南极真菌发现 23 个新杂萜化合物

痒！痒！痒？Cell｜雷晓光/李毓龙/陈煜合作阐明胆汁淤积瘙痒分子机制，开辟肝病治疗新途径

经典入门 | 高级转录组分析和R数据可视化（2024.12）

综述 | 基因重复驱动的演化：基因组学时代的回顾与展望

福建农林表观遗传课题组博士生招生/教师招聘

微生物组-扩增子16S分析和可视化(2025.4)

iMeta 讲坛13 | 陈汉清-消化系统疾病危险因素及干预策略

视频回放 | 刘永鑫-iMeta期刊介绍和高影响力文章(研究/方法/综述)特点

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

新人工智能工具预测突变对蛋白质相互作用的影响

Horticulture Research | 黑枸杞高质量基因组揭示花青素生物合成调控的遗传机制

生信入门一对一，数据操作带你飞

打破AlphaFold大模型局限，世界最大蛋白质相互作用数据集AlphaSeq横空出世

会议注册｜专家院士齐聚！第二届生物计量促进生命科学与生物产业发展暨π-HuB计划生物计量研讨会

经典入门 | 高级转录组分析和R数据可视化（2024.12）

分子生物学既能重构物种的演化规律，还能洞察人类的生老病死

第二轮邀请 | 人工智能时代的微生物学研究暨湖北省生物信息学会—微生物信息学专委会2024年学术年会

微生物组-扩增子16S分析和可视化(2025.4)

科研夫妻档数十项研究遭质疑，校方已展开调查

Nat Mach Intell |熊旭深课题组/熊磊合作开发mRNA翻译组语言模型并解析复杂遗传疾病

Nature Microbiology | 中国海洋大学张晓华团队揭示多种海洋细菌中广泛存在的新型甲基转移酶

经典入门 | 高级转录组分析和R数据可视化（2024.12）

浙江大学熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

武汉站 | 超强嘉宾阵容亮相！与30+大咖近距离交流对话，学术氛围、期待值拉满！

荐书 - 科研论文配图绘制指南 - 基于 R 语言

AI蛋白质语言模型与结构信息的创新整合:EasIFA引领酶学新时代

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

Nature Communications | 基于ESMFold预测结构的几何图学习以准确预测酶功能

GPB | 机器学习技术驱动植物AI育种

生信入门一对一，数据操作带你飞

Advanced Science | 中国农科院作科所揭示荞麦属植物黄酮类合成新基因簇参与调控高海拔适应的分子机制

JIPB | 封面故事：菠萝参考基因组：T2T 组装与“铂金级”基因结构注释

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

iMeta | 黄小罗/戴俊彪等开发 DNA 数据存储用户友好型平台：Storage-D

微生物组-扩增子16S分析和可视化(2025.4)

85后获得诺奖，硬要反思，我们应当反思什么？

iMeta | 高颜值高被引绘图网站ImageGP 2.0在线发表

Pangene：李恒开发泛基因图谱构建工具——探索群体基因组时代研究新方向

Nature Climate Change｜“过犹不及”——我国科学家解析玉米育种过程中高温耐受和雄穗弱化间的博弈规律

微生物组-宏基因组分析专题研讨会 (2024.11，线下+线上)

Science｜David Baker团队设计1500万种新型大环化合物，为人工智能药物研发开辟新天地

曹晓风院士等点评 | 植物科学领域再发nature主刊：清华大学方晓峰团队发现凝聚体可以内陷和切割细胞内膜

经典入门 | 高级转录组分析和R数据可视化（2024.12）

iMeta 讲座11 | 刘永鑫-iMeta期刊介绍和高影响力文章(研究/方法/综述)特点

南开大学孙宝发研究员生物信息学课题组博士招生

生信入门一对一，数据操作带你飞

经典回顾，1000+基因组 | 陈玲玲教授团队综述植物端粒到端粒（T2T）基因组研究进展

《细胞》：周斌团队建立体内细胞衰老的谱系示踪及功能研究技术

微生物组-扩增子16S分析和可视化(2025.4)

北大高歌教授综述：生物信息与大语言模型

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉