DRUGAI
今天为大家介绍的是来自加州大学伯克利分校Jennifer A. Doudna团队的一篇论文。分子结构预测和同源性检测为发现蛋白质功能和进化关系提供了有希望的途径。然而,目前的方法缺乏统计可靠性保证,这限制了它们在选择蛋白质进行进一步实验和计算机模拟表征方面的实用性。为了应对这一挑战,作者引入了一种基于统计原理的蛋白质搜索方法,该方法利用了合成预测的原理,提供了一个能够确保用户指定风险的统计保证框架,并为任何蛋白质搜索模型提供校准后的概率(而不是原始的机器学习分数)。作者的方法具有以下特点:(1)允许用户选择多种生物相关的损失指标(如错误发现率),并为功能未知基因的注释分配可靠的功能概率;(2)在不训练新模型的情况下,在酶分类方面实现了最先进的性能;(3)为计算密集型结构对比算法提供稳健且快速的蛋白质预筛选。这个框架提高了蛋白质同源性检测的可靠性,并能够发现具有潜在期望功能特性的未表征蛋白质。
蛋白质结构预测的时代,蛋白质功能注释的机会非常丰富。然而,能够深入检查和评估这些注释质量的可靠方法却很少,而这对于选择哪些蛋白质通过实验或计算机模拟方法进行进一步表征来说至关重要。蛋白质同源性在功能注释中发挥着核心作用,为蛋白质功能和进化轨迹提供了重要见解。蛋白质同源物是指具有共同进化起源的蛋白质,由于基因复制或物种形成事件,它们往往在序列、结构或功能上表现出相似性。同源性为预测新发现蛋白质的功能和理解各种生物过程的分子机制提供了宝贵的框架。同源性搜索会产生一个分数,该分数基于初级序列或三维结构比较,表示查询蛋白质与查找数据库中蛋白质之间的相似度。
传统上,由于搜索速度快且实验解析的蛋白质结构数量有限,同源性搜索主要集中在序列比对上。BLAST和隐马尔可夫模型(HMMs)长期以来被用于搜索大型蛋白质序列数据库,通过残基重叠和基于比对的特征进行评分。用于比较蛋白质结构的经典方法(如DALI和TM-align)在寻找远程同源物(即序列相似性低的蛋白质同源物)方面表现出更高的灵敏度。然而,由于可用的蛋白质结构数量有限且运算速度慢,这些方法未被广泛使用。随着AlphaFold2等精确蛋白质结构预测方法的发展,可用的(预测)蛋白质结构数量已大大增加。尽管如此,使用经典结构对比方法对这些预测结构进行大规模搜索在计算上仍然是不可行的。
此外,需要注意的是序列和结构的相似性并不一定意味着功能相同。例如,某些酶即使与未知功能蛋白质的序列同一性大于90%,也无法将功能注释转移到该未知蛋白质上,这表明尽管序列高度相似但功能却不同。同样,在蛋白质数据库(PDB)中存在一些结构对,它们的TM-score大于0.5但序列同一性低于10%,却表现出完全不同的功能。
利用深度学习模型对序列、结构和功能进行建模的方法,如TM-Vec、Foldseek、Protein-Vec和TOPH,为快速且高灵敏度的同源性搜索提供了有希望的替代方案。在传统的生物信息学基准测试中,这些方法在速度上优于经典方法,且灵敏度几乎相当。然而,这些蛋白质同源性模型的实际应用还面临其他挑战。这突显了需要更多非任意且可靠的评分系统来指导实验人员选择蛋白质进行进一步研究。例如,生物学家可能想要进行蛋白质搜索,确保返回集合中90%的蛋白质与查询蛋白质共享生化功能(即10%的错误发现率),并提供该集合内共享生化功能的概率。
合成预测领域的最新进展为蛋白质检索提供了一种原则性的方法,可以提供统计有效且非任意的预测集。合成预测提供了黑盒式的统计保证——它对模型的结构不作任何假设。这些技术解决了蛋白质数据大规模化和复杂深度学习架构所带来的新挑战,这些挑战无法通过e值和似然阈值等统计方法来解决。只要有代表未来数据的校准数据集,合成预测就能提供一个框架,返回具有校准风险的预测集,如错误发现率或酶功能注释中的部分错误。通过将合成预测应用于同源性搜索和功能注释模型,作者可以将原始相似性分数转换为检索集和概率。因此,可以允许使用任何搜索模型来生成候选同源物,同时为最终返回的蛋白质集合提供统计准确性的基线保证。此外,还可以将原始相似性分数转换为校准后的概率估计,提供标准化概率而不是原始分数。这提高了模型输出的可解释性,使其在大规模生物学发现中更容易理解和使用。在这项研究中,作者通过开发一个可靠且可解释评估的实用框架来解决如何评估哪些蛋白质需要表征的问题,在进行耗时且成本高昂的生化或计算机表征之前提供必要的筛选方法。
模型部分
蛋白质家族(Pfams)是指具有共同祖先的、在进化上相关的蛋白质群。同一蛋白质家族的成员通常具有相似的序列、结构和功能。注释蛋白质家族对于理解其功能和进化历史至关重要。蛋白质可以有多个Pfam注释;例如,细菌免疫系统CRISPR-Cas9被注释有五个Pfam,对应不同的功能域(核酸内切酶、PAM相互作用等)。Pfam数据库特别广泛地用于将蛋白质序列分类到家族和域中,并作为功能注释的经典基准。
作者使用Protein-Vec在Uniprot的Pfam注释蛋白质中搜索精确功能匹配(Pfam完全相同的蛋白质),并在α = 0.1时展示了寻找假阴性率(FNR)和错误发现率(FDR)的最优相似性阈值的方法。作者对数据进行了100次试验的随机重排,生成新的校准数据集以学习FNR和FDR的最优阈值。同样也可以学习部分功能匹配(至少共享一个Pfam的蛋白质)的最优阈值。
图 1
通过拟合保序回归,作者为查询和查找之间的每个相似性分数分配功能匹配概率。保序回归是一种非参数技术,可以对数据拟合一个非递减函数,使作者能够将原始相似性分数转换为校准后的概率。这种方法确保了分配的概率随相似性分数单调增加,这种转换是评估给定匹配是否正确的自然第一步(图1)。作者采用了一种称为Venn-Abers预测的扩展保序回归版本,它具有理论上的校准保证。
为了评估保序回归的统计有效性,作者采用了Venn-Abers预测器。Venn-Abers预测器是一种概率校准预测器,它能提供可靠的预测区间、校准概率,适应不同的损失函数,具有理论保证且易于实施。该方法有助于验证作者的概率分配在统计上的有效性,并确保其保持预期的覆盖特性。通过使用Venn-Abers预测器,作者可以确保保序回归模型为相似性得分产生准确且可靠的概率估计。
作者检查了Venn-Abers测试概率p0和p1(使用不同统计参数训练的两个保序回归的预测概率)之间的差异,发现|p0, p1|约为0,这表明模型评估功能匹配概率的能力得到了良好的校准。此外,Venn-Abers预测器的预期校准误差(ECE)较低,进一步说明了其可靠性。
作为测试案例,作者研究了对JCVI Syn3.0支原体中已识别基因进行严格注释的可能性。JCVI Syn3.0是由J. Craig Venter研究所开发的,代表着一个最小可行基因组,仅包含生命所必需的基本基因。有趣的是,尽管基因组很小,但在发表时,JCVI Syn3.0中近20%的蛋白质编码基因被归类为功能未知基因——这些基因通过BLAST和HMMSearch与已表征基因没有同源性。注释这个合成生物体中的基因对于理解其功能和细胞生命的最低要求至关重要。
鉴于自JCVI Syn3.0首次发布以来蛋白质结构预测和远程同源算法的发展,作者推测这些基因中可能有一部分与已充分表征的蛋白质具有远程同源性(通过传统方法无法发现)。作者将校准后的方法应用于这个数据集,旨在为Syn3.0中先前未知的基因识别功能注释。作者使用ProteinVec为每个功能未知基因对UniProt数据库计算相似性得分,然后通过选择S_ij ≥ λ的结果进行筛选,其中λ是为获得α = 0.1(预期10%假发现率)的FDR控制而拟合的阈值。
图 2
作者发现39.6%的先前功能未知的编码基因符合与UniProt中蛋白质的精确功能匹配标准(图2A)。作者展示了一个先前功能未知但符合标准的基因的预测结构与UniProt已审核的(ID Q9KAV6)核酸外切酶之间的结构对比(图2G)。通过这种方法,作者为先前未表征但必需的基因提供了可靠的注释,从而加深了对最小基因组和合成生物学的理解。这种方法可以广泛应用于快速为任何新的或未充分研究的生物体的基因组分配高可信度的注释,有助于在自然界和合成世界中发现生物学功能。
酶功能预测的鲁棒选择策略
除了发现未知功能的基因外,作者还探索了准确注释酶功能的技术。酶功能注释是生物信息学中的一个基本挑战,对于系统生物学层面理解代谢途径、药物开发和材料科学都至关重要。然而,这项任务本质上很困难,因为蛋白质可能具有多种酶活性或完全没有酶活性,并且它们的功能会受到复杂的结构和环境因素的影响。传统的注释方法往往难以应对这种复杂性,导致预测不完整或不准确。
为了应对这些挑战,作者探索了一种针对最新深度学习模型CLEAN(基于对比学习的酶注释)的筛选方法。CLEAN与Protein-Vec类似,通过使用单方面对比损失函数来学习酶的嵌入空间,该函数使相似酶(锚点和正例)之间的距离最小化,同时使不相似酶(锚点和负例)之间的距离最大化。CLEAN基于酶学委员会(EC)编号,这是一个分层的酶数字分类方案,其中酶的催化功能由一系列四个数字以递增的特异性来指定。使用CLEAN学习到的嵌入,在各个酶序列嵌入和不同EC编号聚类嵌入之间的原始欧几里得距离上拟合二元高斯混合模型。这些EC聚类嵌入是使用训练数据集中所有已注释该EC编号的序列的平均嵌入计算得出,形成该类的质心。在推理时,使用两种选择方法来预测酶序列的EC编号:1. 最大分离(max-separation)是一种贪婪方法,选择与其他质心嵌入相比具有最大分离度的EC编号;2. p值(p值选择)通过与从20,000个随机抽样训练相似性分数构成的背景分布进行比较,识别出显著的EC编号质心相似性分数。
CLEAN已在两个独立的数据集上进行了评估,这些数据集未包含在模型开发中,以提供公平和严格的基准研究。第一个数据集New-392使用Uniprot的日期截止来选择392个酶序列,涵盖177个不同的EC编号,包含CLEAN训练(2022年4月)后Swiss-Prot发布的数据。第二个数据集Price-149是Price等人描述的一组经实验验证的结果。Price-149由ProteInfer整理,被认为是一个具有挑战性的数据集,因为现有序列在数据库中经常被自动注释方法错误或不一致地标记。增加这一挑战的是UniProt训练数据中存在的主要数据不平衡,作者观察到EC标签的直方图严重向左偏斜,倾向于少数具有高标签丰度的EC家族。作者观察到CLEAN训练数据中5242个EC注释中的4498个的蛋白质样本少于50个。
尽管CLEAN提供了进步,但以统计学置信度选择正确的酶功能仍然不是一件简单的事。鉴于该领域频繁出现错误注释以及CLEAN在选择方面投入的努力,作者有兴趣为每个数据集独立调整合格程序,以开发一种基于统计学的选择技术。EC系统的分层性质(其中每个酶序列可以被视为树中的叶节点)与作者使用分层风险函数的方式很好地契合。此外,作者想探索在一个数据集上进行校准并在第二个数据集上进行评估是否能保持覆盖率保证。这种方法可能会产生比CLEAN提出的两种策略更高性能的选择方法。
图 3
与特定查询的注释相比,基于合格方法得到的相似性阈值λ具有以下优势:i) 针对某个α值,为分层分类的差异提供性能保证;ii) 当模型对蛋白质是否应该被分类为EC编号存在不确定性时,允许输出空集,这是最大分离和p值选择方法都未能解决的问题。作者在图3中展示了这种选择病理的一个例子。当让CLEAN注释最近开发的SARS-COV-2抗体的抗原结合片段(显然不是酶的蛋白质)时,最大分离和p值方法都返回了注释集(因为最大分离必须至少返回一个注释)。相比之下,合格风险控制恰当地返回了一个空集。
CLEAN使用高斯混合模型来为结果分配置信度水平。虽然这种方法可以测量概率并手动确定EC注释的置信度阈值,但它存在局限性。对于宏基因组酶挖掘等高通量应用,合格保证能隐式解决这些模型病理,提供更稳健的解决方案。因此,作者在New数据集提供的392个查询点中的380个上进行校准,并按照CLEAN报告的指标,报告了Price-149上的测试精确度得分、召回率得分、F1得分和曲线下面积(AUC),以及分层损失覆盖率。作者对New-392和Price-149针对CLEAN训练集中所有5242个EC聚类嵌入构建了距离图。然后计算每个查询的分层损失得分,以使用合格风险控制进行校准。
作者的研究结果表明,使用CLEAN产生的相同底层嵌入的合格选择策略优于最大分离和p值选择方法。最令人兴奋的是,作者发现在New-392上进行校准并在New-392的子集上评估不仅优于CLEAN选择方法,而且在New-392上校准并在包含先前难以注释的未知功能酶的更具挑战性的Price-149基准上测试也产生了良好的性能。作者在表1-2中报告了这两项任务的结果。
尽管数据集不可交换,并且注意到以下方面存在显著差异:(i) CLEAN产生的相似性分数分布,以及(ii)两个数据集中与训练集功能匹配的序列相似性,作者的分层风险校准策略仍然优于之前的两种选择方法。
作者认为这项早期工作为使用合格蛋白质检索方法提供了机会,可以在保留的训练数据子集上作为一个核心的大型校准数据集。这种方法随后可以扩展到多个独立的注释任务,实现稳健可靠的选择,最终提高跨不同数据集的酶功能预测准确性。
编译|黄海涛
审稿|王梓旭
参考资料
Boger, R. S., Chithrananda, S., Angelopoulos, A. N., Yoon, P. H., Jordan, M. I., & Doudna, J. A. (2025). Functional protein mining with conformal guarantees. Nature Communications, 16(1), 85.