语言模型革新同源蛋白检测，Nature Biotechnology一作聊聊论文里没有的细节！

文摘 2024-08-15 12:17 中国香港

笔者：brighthong

编辑：Yimin

新一代测序技术推动的生物序列数据库指数性增长，需要创新方法进行大规模分析。传统方法例如AlphaFold使用的HMMER在应对亿级数据库时常常力不从心，数以小时计的运行时间极大限制了其应用场景。为应对这一挑战，香港中文大学（CUHK）李煜教授领导的研究团队开创性地研发了DHR，这是一种旨在快速、灵敏地检测远缘蛋白质同源物的前沿方法。研究已发表在著名期刊Nature Biotechnology上。

相信大家在各个公众号上已经刷到了关于这篇论文的一些报道，对我们的论文有了一定的了解。那么，作为这篇论文的一作，我将先为大家简单介绍这篇论文的模型架构，下游任务和主要优势，之后重点和大家介绍一下论文里没有的那些细节和经验！另外，预告一下，明天AIMShare将会有专稿文章介绍这文章背后的故事，包括项目的来源，投稿过程，心路历程等等，敬请期待。

DHR 简介

1）模型框架

就像基于人类语言训练的ChatGPT能够理解语义一样，在大规模序列数据上预训练的蛋白质语言模型具有捕获进化信息的潜力。我们基于蛋白质语言模型和密集检索（Dense Retrieval）开发了Dense Homolog Retriever (DHR)方法。该系统利用先进的蛋白质语言模型将查询序列编码为嵌入式向量表示(Embedding)，并通过向量之间的相似度度量对数据库进行搜索和同源性比较。DHR整体采用了双编码器架构，训练时使用正反同源序列对进行基于对比学习的训练，拉近同源序列对之间的距离。在推理时，给定一个蛋白质序列，DHR可以快速检索出具有较多同源信息的序列。首先，DHR检索出的蛋白质同源序列具有极高的速度和灵敏度，此外，这些序列可以被用来构建MSA，用于各种下游任务，如加速Alphafold2的预测，提升蛋白质结构预测的性能。

2）主要优势: 速度与精度

DHR的相比于其他方法的主要优势在于其速度和精度。

在速度方面，蛋白质语言模型的一个优势在于其无需进行序列比对，在处理序列时速度极快。在工具开发时，我们也进行了一些工程优化，在训练时使用正反同源序列对进行训练，而推理前用数据库编码器离线编码，推理时仅使用查询编码器编码并直接与数据库编码进行比较。这使得 DHR的速度远远超过传统方法。在检索同源序列时，DHR的速度是传统方法（如PSI-BLAST和DIAMOND2）的22倍，而当将DHR与JackHMMER串联以加速迭代MSA构建过程时，DHR比传统方法快93倍，并且构建的MSA与AlphaFold2生成的MSA高度一致。

在精度方面，得益于蛋白质语言模型的强大表示能力，与传统方法相比，DHR的灵敏度提高了10%以上，在传统方法难以识别的难样例上，DHR的灵敏度更是提高了超过56%。此外，DHR与JackHMMER生成了更多样化和全面的MSA，在与AlphaFold2生成的MSA合并时，平均能提高0.4 Å的蛋白质结构预测精度。

论文背后的细节

DHR的初版叫fastMSA，是三年前一篇投稿RECOMB的工作。fastMSA的思路非常直接，因为AlphaFold使用HMMER构建MSA太慢了，所以我们想加速一下。当时2021年有了pLM和一些信息检索方面的进展，于是我们尝试将他们用在HMMER构建之前，先使用Dense Retrieval的方法筛选出最相似的200k个蛋白质序列，再使用HMMER构建MSA，通过缩小需要搜索的序列范围来加速搜索。

到这里为止，fastMSA的主要贡献是在蛋白数据库中用语言模型做信息检索（初步筛选），从而加速传统MSA构建方法。但是在优化fastMSA的过程中，我们发现该模型的能力其实远远超出我们的预期。经过性能调优之后之后的fastMSA可以直接得到高质量的同源序列，且能扩展到更大的数据库，于是我们决定增加更多训练数据，并将我们关注的重点从加速MSA构建转变到更为通用的同源序列检测，以此为基础，我们开发了fastMSA的升级版本-DHR。

DHR的关注重心是同源序列的检索上，并在后续将它们构建为MSA进一步在下游任务测试其质量。在大量实验验证中，我们有两个意料外的发现：

MSA构建中，DHR方法做出的MSA有效序列数量竟然能高于HMMER得到的结果。而在预期中，DHR作为第一步筛选是会导致选出的同源序列池小于等于全数据库中的同源序列。
DHR构建出来的MSA跟HMMER构建的类似但不同，而在下游任务性能类似。合并两个MSA在某些情况下甚至能提升蛋白质预测任务的性能。

在接下来几个小节中，我会详细阐述这两个意外产生的原因。首先我会先简单介绍同源的定义以及传统方法是如何检索同源的。然后我会回顾DHR的做法并详细解释。

1）什么是同源，怎么找同源

同源本身定义很简单，就是演化上来自同一祖先，或者说进化上相关。但是我们的序列数据库里并不提供这样的信息，尤其是我们拿到一条不知道是哪里来的序列，该如何找到他的同源序列？

https://en.wikipedia.org/wiki/Sequence_homology

早期的方法直接借鉴了NLP的手段，通过各种序列相似度的计算来获取。但是只关心相似度显然搞错了问题，我们希望找到的是同源序列，而不是相似序列。后续的方法将相似度定义更改为统计定义，即我们找到的同源序列在打分上是统计显著的。但这依旧不够形式化也不完全合理，因为这里仅仅说明我们搜索到的序列相比别的序列在打分上跟搜索序列更接近。当今作为金标准的HMMER更近一步定义了一个H与R的假说检验（H：序列相对查询是同源的，R：序列只是随机序列）。

这样在计算上的同源定义会直接导致的问题则为，同源与否是跟数据库相关的，即数据库里的其他序列也会影响同源序列检索的结果。

2）传统方法的努力和其极限

在同源序列检测方面，早期最有名的方法是BLAST，BLAST借鉴了NLP领域的n-gram方法，定义了生物序列的kmer。这样对于kmer的完全匹配显然是十分粗暴的，但同时也不得不承认，kmer能将检索变为倒表，极大提升了搜索效率。

后续PSI-BLAST引入了PSSM(位置相关打分矩阵)，把每个位点都独立出来，这样考虑到了全序列不同位置的保守性不同，突变方向不同。HMMER包将这一切更进一步定义为了HMM，能够更合理地处理插入删除，也将打分形式化为概率分布。

Durbin, R., Eddy, S. R., Krogh, A., & Mitchison, G. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. doi: 10.1017/CBO9780511790492

结合前一节同源性的定义，不难看出打分、HMM的构建是从序列数据库统计来的，同源性也是从数据库统计来的，加之HMM的表征能力有限，传统方法被其使用的数据库限制住了。即便他们能进行迭代，如果在最开始的一轮里没能找到合适的同源序列，后续无论如何都无法补救。从另一方面讲，如果最开始得到的同源序列存在偏见，那么在后续也无法修正。而最开始的一轮完全靠的是HMMER内置的打分。

3）DHR的尝试

DHR能够替代所有传统方法需要的第一轮打分，摆脱了对于HMMER内置打分的依赖。我们认为在高维流型（由蛋白质语言模型映射到的）上的相似度比较能够有效避免传统方法基于字母表频次的筛选，并且与数据库统计无关。虽然DHR本身并非完美，但是我们对其筛选能力有信心。在理论上，基于transformer的模型能够有全局的感知，能够发现远程的关联性，这是HMM模型所不具备的。再者，DHR的筛选与HMMER并不冲突，我们可以认为DHR的筛选结果给了HMMER一个较好的起始点，HMMER能够更好的进行第一步统计，并帮助DHR抑制假阳性。

回到两个意料之外的发现，原因已十分明晰：数据库本身就会影响同源序列，DHR的筛选并不仅仅是加速作用，它能够切实地辅助HMMER更好地迭代。传统的同源序列检测方法依赖于HMMER第一轮统计的结果，因此下游的MSA构建和蛋白质结构预测上的性能上限就是HMMER的结果。而DHR的结果不依赖于HMMER的第一轮统计，可以获得更多样的同源序列。基于DHR得到的同源序列构建的MSA和基于HMMER构建的MSA结合之后，带来了更多的信息量，自然能提升下游的蛋白质预测性能。

杂谈:蛋白质语言模型(pLM)的能力和上限

文章中我们使用了ESM系列模型，早期的fastMSA使用了旧版的ESM1，而最新的DHR已经升级到新版的ESM2。我们在早期实验阶段(fastMSA v1, 2021.8)就观察到ESM的能力大大超出了我们的预计。最开始我们只使用了两万数据进行微调，而那时的模型就已经在多数简单样例上表现不俗，这也促使我们去构建了更大的数据集。ESM2的能力相比ESM1又有一次提升，主要体现在编码信息密度上，用更低维度编码更多信息。现在ESM3发布了，相信ESM3能更加有效。

但是ESM模型本身也存在问题。首先，在长度超过800aa时，我们观测到召回性能存在显著的下降。其次，Dense模型在训练和推理阶段仍十分昂贵。再者，DHR的流程相比通常NLP领域做RAG其召回序列数量要多得多，这对Faiss一类相似度搜索引擎带来了挑战。DHR希望召回的是相对相似但同时多样的序列，如果只是找到了最相似的同质信息其实对下游任务帮助有限，当前DHR并没有显式处理这个问题，但是其编码空间的相似度比对已跳脱于序列相似度的绑定，在排序中增添了多样性，但仍旧不能完全保证远同源序列能不被大量相似序列掩盖，故我们希望在未来能够实现类似hhsuite中限定召回序列间相似度的功能。

如果您对我们的内容有任何疑问需要咨询或想要联系作者，可以备注“AIMS”联系课代表。也欢迎大家投稿！课代表微信：AimNina。转载请联系本公众号获得授权。

http://mp.weixin.qq.com/s?__biz=MzkyODczMTY4OQ==&mid=2247483953&idx=1&sn=b5e09c6ad2a84b30b2c962e0961f33eb

AIMShare

AlMShare（Al with Mission and Social responsibility）是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养，致力于打破该领域信息差。

最新文章

申请季前谈：如何准备面试（委员会Commitee）

利用结构预测工具，开发RNA适体设计新方法！

特朗普当选美国总统：留学与科研或将迎来大地震

生信研究如何画图？收下这份硬核无广入门指南！

Nature: 研究生如何在老板面前抗压？

“数学天才”姜萍违反规则：科学同样需要质疑与真诚

如何在学术会议上拿捏成果展示？Nature有好建议！

单细胞研究必看！如何在自己的课题中使用单细胞大模型？

Nature：如果导师不愿意给推荐人写推荐信，怎么办？

绘制糖蛋白结构来揭示黄病毒科进化史，登上Nature

深度学习+神经元形态，详细梳理最新进展！（下）

空间转录组学数据怎么玩转自如？建图就可以了！

深度学习+神经元形态，详细梳理最新进展！(上）

申请季前谈：申请季面试，你准备好了吗？实用指南在此

DNA语言模型：理解基因组的强大新工具

学术先锋｜源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

结构生物学“去污名化”：AI虽好，也不能贪杯喔

CytoCommunity：图神经网络革新细胞邻域识别

不止于Alphafold3！深度解析AI预测生物分子相互作用那些事～

从AF2到AF3，AlphaFold又进化了！

如何将ChatGPT用于科研？Nature有建议！

机器学习在抗菌肽识别与设计中的应用

基于对比学习的酶蛋白功能预测工具，登上Science的工作如何在一年内产生深远影响？

从小白到Nature子刊发表，AI forBiology/Science学习路径

如何申请MPhil项目？港大学长经验贴

通俗解析生物信息学中的多模态研究：单细胞多组学

如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

语言模型革新同源蛋白检测，Nature Biotechnology一作聊聊论文里没有的细节！

如何写一个Research Proposal-以《基于煸炒过程加蒜技术的红烧牛肉烹饪方法》为例

从数据处理到模型训练，一文速览单细胞大语言模型进展

生物信息大模型卷起来了：应用与前景浅谈

申请季前谈：如何选择适合自己的课题组

破解RNA逆向折叠难题，扩散模型在生物大分子数据上的又一妙用！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉