2024年11月28日,来自InstaDeep公司和英伟达公司的研究人员在Nature Methods上发表论文Nucleotide Transformer: building and evaluating robust foundation models for human genomics。从DNA序列中预测分子表型一直是基因组学中的一个长期挑战,通常由于注释数据的有限性和在不同任务之间无法迁移学习的限制所导致。在本文中,作者提出了一项关于DNA序列预训练基础模型的深入研究,称之为Nucleotide Transformer。该模型的参数数量从5000万到25亿不等,整合了来自3202个人类基因组和850种不同物种基因组的信息。这些transformer模型能够生成针对上下文的核苷酸序列表示,从而即使在数据稀缺的情况下也能实现准确的预测。作者表明,所开发的模型可以通过低成本的微调来解决各种基因组学应用。尽管没有监督信号,这些模型仍能够聚焦于关键的基因组元素,并可用于改进遗传变异的优先级排序。在基因组学中,基础模型的训练和应用为从DNA序列中准确预测分子表型提供了一种具有广泛适用性的方法。
人工智能(AI)中的基础模型的特点是其大规模性,这些模型通过在大规模数据集上训练的数百万个参数来实现。这些模型可以适应各种后续的预测任务,并已对AI领域产生了深远的影响。在自然语言处理(NLP)中,著名的示例包括语言模型(LM)BERT和GPT。近年来,语言模型因其能够在无标签数据上进行训练的能力而备受关注,从而生成可用于解决下游任务的通用表示。语言模型通过解决数十亿个完形填空测试来实现对语言的全面理解,在这些测试中,模型需要预测句子中空缺位置的正确单词。这种方法被称为“掩码语言建模”(masked language modeling)。基础模型最早在生物学领域中应用这一目标时,涉及对蛋白质序列的语言模型(LM)进行训练,任务是预测大规模蛋白质序列数据集中被掩码的氨基酸。这些蛋白质语言模型在使用迁移学习应用于下游任务时,展示了与甚至优于之前方法的竞争能力,例如在预测蛋白质结构和功能的任务中表现出色,即使在数据稀缺的情况下也取得了良好的结果。除了蛋白质序列之外,DNA序列中编码的依赖模式在理解基因组过程方面起着至关重要的作用,从识别调控区域(regulatory regions)到评估单个变异在单倍型(haplotypic)背景中的影响。在这一背景下,已经训练了专门的深度学习(DL)模型来揭示DNA中的有意义模式。例如,深度学习模型已被用于从DNA序列中预测基因表达,最近的进展结合了卷积神经网络和transformer架构,从而能够对位于上游多达100kb(kb对应千碱基对)的调控元件进行编码。现代基因组学研究生成的大量数据既带来了机遇,也提出了挑战。一方面,跨物种和种群的自然变异的复杂模式变得容易获得;另一方面,为了从无标签数据集中准确提取信号,需要强大的深度学习方法来处理大规模数据。在核苷酸序列上训练的大型基础模型似乎是一种值得探索的方法,以应对这一挑战。在本文中,作者构建了一个用于编码基因组序列的强大基础模型,称之为Nucleotide Transformer (NT),并对其性能进行了系统的研究和基准评估。
作者开发了一系列基于transformer的DNA语言模型(LM)NT,这些模型已从6kb未注释的基因组数据中学习到了通用的核苷酸序列表示(图1a)。
图1 核苷酸转换器:预训练、微调、分析和比较基因组学基础模型的有效方法。
受自然语言处理(NLP)趋势的启发,即更大的训练数据集和模型规模已经展现出更好的性能,作者构建了具有不同参数规模和数据集的transformer模型:(1)在人类参考基因组序列上训练的5亿参数模型('Human ref 500M');(2)一个5亿参数模型('1000G 500M')和(3)一个25亿参数模型('1000G 2.5B'),这两个模型都在3,202个遗传多样性的人类基因组上训练;以及(4)一个包含来自不同门类的850个物种(包括11个模式生物)的25亿参数模型('Multispecies 2.5B')(图1c和补充表1-4)。
Nucleotide Transformer模型能够准确完成基因组学任务
为评估这些模型在预测各种分子表型方面的效能,作者从公开资源中整理了18个基因组数据集,包括剪接位点预测任务(GENCODE)、启动子任务(真核生物启动子数据库)和组蛋白修饰和增强子任务(ENCODE),每个数据集的规模设计合理,以便进行快速和严格的交叉验证程序(图1d)。虽然有更大的监督模型数据集可用,但这18个基因组数据集的汇编为严格统计检验模型在不同任务中的适应性以及与其他DNA自监督基础模型的比较提供了多样且可靠的选择。这些数据集被处理成标准格式,以促进实验并确保大型LM性能评估的可重复性。作者通过两种不同的技术评估transformer模型:探测(probing)和微调(fine-tuning)(图1b)。探测是指使用已学习的DNA序列LM嵌入作为输入特征,供较简单的模型预测基因组标签。具体而言,作者使用逻辑回归或由最多两个隐藏层组成的小型多层感知器(MLP)对LM的十个任意选择的层进行探测。在微调的情况下,LM头被替换为分类或回归头,并使用参数高效的技术进行再训练。为确保不同模型之间的公平和准确比较,作者实施了十折交叉验证策略。为了将预训练的基础模型方案与该领域的标准监督方法进行比较,作者在18个任务中分别从头开始训练了BPNet卷积架构的不同变体。BPNet架构在基因组学中得到广泛应用,代表了一个通过监督学习从头开始对小规模数据集进行建模的非常强大的默认架构。作者观察到原始BPNet模型在各项任务中表现出色(平均Matthews相关系数(MCC)为0.665),通过将其规模增加到2800万参数,性能得到进一步提升(平均MCC为0.683),这证实了直接监督的卷积架构在基因组学任务中表现非常好(图2a,b)。图2 核苷酸转换器模型在微调后准确预测了各种基因组学任务。
接下来,作者评估了NT模型的探测和微调与这些监督基线模型在基准数据集上的比较情况。如果所得的两个标准差要么重叠要么优于报告的基线值,作者认为这些模型分别等同于或优于其他模型。使用这一标准,仅通过探测,NT模型在5个任务中与基线BPNet模型相匹配,在18个任务中的8个任务中超过了它们(补充图1和补充表6),并且显著优于对原始token的探测。与近期的研究一致,作者观察到最佳性能同时依赖于模型和层(补充表8)。作者还注意到,使用最终层的嵌入永远无法达到最高的模型性能,这与早期的研究结果一致。例如,在增强子类型预测任务中,作者观察到性能最高和最低的层之间存在高达38%的相对差异,这表明在各层之间学习到的表示存在显著变化(补充图3)。与探测策略相比,作者的微调模型在18个基线模型中要么相匹配(n=6)要么超过(n=12)(图2a,b)。值得注意的是,微调后的NT模型优于探测模型,并且更大和更多样化的模型始终优于较小的模型。这些结果支持了需要针对特定任务微调NT基础模型以实现卓越性能的必要性。作者的结果还表明,在多样化数据集上训练的模型(由Multispecies 2.5B模型代表)在源自人类实验的几个任务中优于或匹配1000G 2.5B模型(图2a,b)。这意味着增加序列多样性的策略,而不仅仅是增加模型规模,可能会带来预测性能的改善,特别是在计算资源有限的情况下。由于微调需要高昂的计算资源,之前的研究并未广泛探索微调。作者通过采用最新的参数高效微调技术克服了这一限制,该技术仅需要总模型参数的0.1%(图1b和方法部分)。这种方法允许在单个GPU上更快地进行微调,将所有微调参数的存储需求降低1000倍,同时仍能提供可比的性能。实际上,作者观察到,尽管在嵌入上使用直观的下游模型看似简单,但严格的探测比微调更慢且计算密集。这种差异源于层选择、下游模型选择和超参数等因素对性能的显著影响。此外,微调在性能上表现出较小的方差,增强了方法的稳健性。总的来说,这种通用方法灵活且适应各种任务,无需调整模型架构或超参数。这与监督模型形成对比,监督模型通常具有不同的架构,并需要为每个任务从头开始训练。最后,作者旨在评估大型语言DNA模型在与使用大型数据集和优化架构训练的稳健监督基线竞争方面的潜力。为此,作者将Multispecies 2.5B模型应用于三个额外的基因组预测任务,这些任务包括对来自不同人类细胞和组织的919个染色质谱的分类、预测整个人类基因组中的规范剪接受体和供体位点,以及预测黑腹果蝇S2细胞的发育和管家增强子活性。值得注意的是,尽管没有对其原始微调架构进行额外的更改或优化,Multispecies 2.5B模型的性能水平与专门的DL模型非常接近。例如,在对染色质特征谱进行分类时,作者获得的曲线下面积(AUC)值平均仅比DeepSEA低约1%(图2c)。关于预测前mRNA转录本(pre-mRNA transcript)中的每个位置是剪接(splice)供体、剪接受体还是都不是,作者调整了NT模型以提供核苷酸级别的剪接位点预测,并实现了95%的top-k准确率和0.98的精确率-召回率AUC(图2d)。值得注意的是,作者的2.5B 6kb上下文模型不仅与在15kb输入序列上训练的最先进的SpliceAI-10k的性能相匹配,还优于其他剪接基线;并且在6kb输入序列测试时优于SpliceAI。最后,在管家(housekeeping)和发育增强子预测的情况下,与DeepSTARR相比,作者的模型分别略微超过(1%)和获得较低(4%)的相关值(图2e)。在这三个不同的任务中,作者还对参数高效微调和完整模型微调(训练模型的所有参数以优化其在特定任务或数据集上的性能)进行了比较。值得注意的是,作者在染色质和剪接预测中没有观察到显著改善,在增强子活性预测中仅有3%的适度提升(补充图2),这支持了作者高效微调方法的使用。总的来说,作者广泛的基准测试和结果展示了NT作为一种通用方法在解决许多不同基因组学任务时的灵活性和高准确性。
作者将NT模型与其他基因组学基础模型进行了比较:DNABERT-2、HyenaDNA(1kb和32kb上下文长度)和Enformer(用作预训练模型的替代架构)(图2a,b和方法部分)。作者将DNABERT-1排除在这次比较之外,因为它只能处理最大512bp的输入长度,因此不能用于大多数任务。为确保公平比较,所有模型都使用相同的协议在18个下游任务中进行微调和评估。与DNABERT-2、HyenaDNA-32kb和Enformer相比,作者的Multispecies 2.5B模型在各项任务中实现了最高的整体性能(图2a,b)。不过,Enformer在增强子预测和一些染色质任务上取得了最佳性能,表明它可以成为一个强大的DNA基础模型。作者的模型在所有启动子和剪接任务上都表现优于其他模型。值得注意的是,尽管HyenaDNA是在人类参考基因组上预训练的,但作者的Multispecies 2.5B模型在所有18个任务中都与之相匹配(n=7)或超过(n=11)它,突显了在多样化基因组序列集上预训练的优势。作者建立了一个包含所有模型在每个任务中结果的交互式排行榜,以便进行比较
https://huggingface.co/spaces/InstaDeepAI/nucleotide_transformer_benchmark
这代表了对基础基因组学模型的广泛基准测试,应该作为进一步发展基因组学中LM的参考(图1c)。
为了深入理解和解释NT模型在进行预测时使用的序列元件类型,作者探索了它们架构的不同方面。首先,作者评估了嵌入能在多大程度上捕获与五种基因组元件相关的序列信息。作者观察到,NT模型在没有任何监督的情况下,学会了区分被唯一标注为基因间(intergenic)、内含子(intronic)、编码和非翻译区域(UTRs)的基因组序列,尽管在不同层中的熟练程度各不相同(图3a)。图3 核苷酸转换器模型获得了有关基因组元素的知识。
特别的,5亿规模的模型和那些在较少多样性序列上训练的模型,在基因组区域间表现出较低的分离度(separation),这强化了最大的模型在自监督训练期间捕获相关基因组模式的能力。对于Multispecies 2.5B模型,在第1层观察到基因间区域和基因区域之间的最强分离,其次是第5层的5' UTR区域,以及第21层大多数区域之间的分离(图3a)。3' UTR区域与其他元件的有限分离表明,该模型尚未完全学会区分这种类型的元件,或如先前所建议的,这些区域中许多可能被错误注释。与这些观察一致,作者的监督探测策略显示这些元件具有高分类性能,准确率超过0.78,特别是在更深的层中(图3b)。这表明NT模型已经以无监督的方式学会在其嵌入中检测已知的基因组元件,这可用于高效的下游基因组学任务预测。接下来,作者通过注意力的视角对模型进行了分析,以理解哪些序列区域被注意力层捕获和利用。作者计算了每个模型头和层的注意力百分比,是在九种与基因结构和调控特征相关的基因组元件的序列上计算的(图3c)。从形式上讲,当注意力头的注意力百分比显著超过该元件在预训练数据集中自然出现的频率时,就认为该注意力头能识别特定元件。例如,50%的百分比意味着,在人类基因组中平均而言,该特定头部50%的注意力都指向感兴趣的元件类型。通过将这种方法应用于大约10,000个不同的6kb序列中的每种类型的元件,其中元件可位于不同位置并占序列的2-11%,作者发现注意力在其不同的头和层中明显集中在特定类型的基因组元件上(图3d)。各层中显著(significant)注意力头的数量在模型间存在显著差异,尽管含有外显子和TF基序的序列比例相对较小,但Multispecies 2.5B模型对内含子(640个头中的117个)、外显子(n=72)和转录因子(TF)结合位点(n=74)观察到最多的显著注意力头。关于增强子,最大注意力百分比在最大的模型中最高,例如1000G 2.5B模型达到了接近100%的注意力。在其他基因组元件如3' UTR、启动子和TF结合位点中也观察到类似的模式,其中1000G 2.5B模型显示出高度专门化的头部具有高注意力,特别是在第一层。为了更深入地了解预训练的NT Multispecies 2.5B模型在更高分辨率上的表现(关注更局部的序列特征),作者研究了不同类型基因组元件的token概率,作为模型学习到的序列约束和重要性的衡量标准。具体而言,作者计算了22号染色体中每个6kb窗口的六聚体token概率(基于每次掩盖一个token)。作者的发现表明,除了模型如预期般很好地重建的重复元件外,预训练模型还学习了各种基因结构和调控元件。这些包括受体和供体剪接位点、polyA信号、CTCF结合位点和其他基因组元件。此外,作者将token预测与MST1R基因外显子11的实验饱和突变剪接测定进行了比较(数据来自Braun等人)。这项分析揭示了实验突变效应与Multispecies 2.5B模型的token预测之间存在显著相关性(Pearson相关系数(PCC)=0.44)。该模型不仅捕获了不同剪接连接处的约束,还识别出第二个内含子中间对该外显子剪接至关重要的区域。这些结果有力验证了NT模型在无监督预训练期间获得的生物学知识。最后,作者检查了在DeepSTARR增强子活性数据上完全微调的Multispecies 2.5B模型,以确定它是否专门针对增强子活性学习了TF基序及其相对重要性。作者使用了一个实验数据集,其中包含了数百个增强子序列中五种不同TF基序类型的数百个单独实例的突变,并评估了模型在预测这些突变效应方面的准确性。与最先进的增强子活性DeepSTARR模型相比,作者的模型在四个TF基序上达到了相似的性能,并在Dref基序上展现出更优越的性能。总的来说,这些结果说明了NT模型如何获得了恢复基因结构和基因组序列功能特性的能力,并将它们直接整合到其注意力机制中。这些编码信息应该有助于评估遗传变异的重要性。
此外,作者评估了NT模型评估各种遗传变异的严重程度和优先考虑具有功能重要性的变异的能力。首先,作者研究了零样本(zero-shot)评分的使用,零样本评分用于预测模型在训练过程中未见过的类别。具体而言,作者计算了基于嵌入空间中向量距离的零样本评分,以及从损失函数中派生的评分,并将这些评分在十种不同类型的遗传变异中的分布进行了比较,这些变异的严重程度各不相同(图4a)。令人鼓舞的是,这些零样本评分在模型中与变异的严重程度表现出了中等的相关性。这表明,单靠无监督训练就能够捕获与遗传突变潜在严重程度相关的关键信息,并强调了评估不同评分方法的实用性。评分之间的相关性差异较大,这也表明嵌入空间的不同方面可能更有效地捕获与变异严重程度相关的信息。在这些评分中,余弦相似度(cosine similarity)在所有模型中表现出与严重程度的最高相关性,r²值范围为-0.35到-0.3(P < 6.55 × 10-186)。在所有模型中,余弦相似度得分最低的遗传变异是影响蛋白质功能的变异,例如“终止获得型”变异(stop-gained variants)、同义变异(synonymous variants)和错义变异(missense variants)(图4b)。相反,作者注意到,可能对功能影响较小的变异(如基因间变异)被分配了更高的得分,这表明该方法有潜力捕获遗传变异的严重性效应。接下来,作者还探索了零样本评分在优先排序功能变异和具有致病效应的变异中的潜力。具体而言,作者评估了模型对以下几类遗传变异的分类能力:影响基因表达调控的表达数量性状基因座(eQTLs)、与DNA甲基化变异相关的甲基化数量性状基因座(meQTLs)、在ClinVar数据库中被注释为致病的遗传变异,以及在人类基因突变数据库(HGMD)中报告的遗传变异。零样本评分在这四项任务中的分类性能较高,最高的AUC(曲线下面积)范围在0.7到0.8之间(图4c)。对于ClinVar变异,Multispecies 2.5B模型的表现最佳,AUC达到0.80,这表明至少对于高度致病的变异,零样本评分可能具有直接的应用价值。最后,为了更正式地评估这些模型的有效性,作者还基于微调的模型进行了预测,并将其性能与几种方法进行了比较。这些方法包括测量基因组保守性水平的评分以及基于功能特征训练的模型所得的评分。值得注意的是,微调后的模型的性能要么略优于其他模型,要么与其他模型表现相当(图4d)。在分子表型(如eQTLs和meQTLs)的优先排序中,表现最好的模型是那些在人体序列上训练的模型,而在致病变异的优先排序中,表现最佳的模型则是基于多物种序列的模型。考虑到最严重的致病变异往往会通过氨基酸变化影响基因功能,这可能表明多物种模型利用了跨物种的序列变异来学习站点的保守程度。研究结果还表明,通过从更广泛的人的遗传变异中获得更好的序列变异,可以实现对非编码变异(如eQTLs和meQTLs)的更高预测能力。此外,与零样本评分相比,点积(dot-product)在eQTLs和meQTLs中的AUC值分别为0.73和0.71,略高于或等于微调模型的AUC值。总体而言,这些结果说明了基于DNA的transformer模型如何有助于揭示和理解与分子表型和疾病相关的变异的潜在生物学意义。
参考资料
Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J., Lopez Carranza, N., Grzywaczewski, A. H., Oteri, F., ... & Pierrot, T. (2024). Nucleotide Transformer: building and evaluating robust foundation models for human genomics. Nature Methods, 1-11.