DNA语言模型:理解基因组的强大新工具

文摘   2024-09-24 12:36   中国香港  
近年来 ,人工智能,尤其是自然语言处理( NLP )领域的进步,为分析和理解基因组序列开辟了令人兴奋的新可能性。正如语言模型可以学习人类语言中的复杂模式,基因组语言模型( gLMs )旨在捕捉DNA的复杂"语法"。来自加州大学伯克利分校的研究人员最近发表了一篇综述论文Genomic Language Models: Opportunities and Challenges ,探讨了这一新兴领域的机遇和挑战。


DNA语言模型的前景

从本质上讲 ,gLMs是在大规模DNA序列数据集上训练的深度学习模型。通过学习预测被遮蔽(MLM任务)或下一个(Causal)核苷酸,这些模型形成了丰富的内部表示,可以应用于各种基因组学任务。该综述强调了gLMs在三个关键应用领域显示出特别的前景:

1.  fitness预测 :gLMs可以以无监督的方式估计遗传变异而无需标记的训练数据。这一思路基于健康个体的参考基因组中不包含有害变异的假设 ,因此在这些数据上训练的模型自然会为有害突变分配较低的概率。前期在植物基因组中的早期结果(ArgoNT)令人振奋 ,


但其在人类基因组上的表现目前还参差不齐(Bend)。


2.  序列设计 :gLMs有潜力生成具有所需特性的新DNA序列。这在合成生物学中可能有重大应用,从设计调控元件到生成整个人工染色体或基因组。虽然仍处于早期阶段,但gLMs已经显示出生成具有真实特征序列的一些能力。

3.  迁移学 :gLMs在预训练过程中学习的表示可以被微调或用作下游基因组学任务的特征(GPN)。这允许利用大规模未标记的基因组数据集来提高标记数据有限的任务的性能。例如预测基因表达、染色质可及性和注释基因组元件。



开发gLMs的关键考量因素

该综述概述了开发有效gLMs时需要考虑的几个重要因素:

训练数据 :仔细收集并处理训练数据至关重要。与蛋白质不同,UniProt等数据库提供高质量序列,而基因组包含大量非功能DNA。作者建议优先考虑功能区域、对重复元件进行降采样 ,以及整合多个物种的数据以增加多样性等策略。

模型架构 :虽然Transformer模型在NLP中占主导地位,但基因组领域提出了独特的挑战。卷积神经网络 ( CNNs)擅长捕捉局部基序,而Transformers可以模拟更长距离的相互作用。混合架构和较新的方法(如状态空间模型)旨在结合这些优势。一个关键挑战是处理捕捉全基因组模式所需的极长上下文长度。
学习目标 :大多数gLMs使用掩码语言建模( MLM ,预测被掩码的核苷酸)或因果语言建模( CLM ,预测下一个核苷酸)。每种方法在不同应用中都有优势。作者还讨论了分词策略(常为BPE ,单核苷酸或k- mer)和在训练过程中纳入额外基因组信息(宏基因)的方法。

解释 :理解gLMs学习到的模式对于建立信任和获得科学洞见至关重要。该综述强调了诸如可视化学习的嵌入、分析注意力模式和从模型预测中重建序列基序等方法。

评估 :由于模型预测与实际生物学功能之间的复杂关系,对gLMs进行基准测试具有挑战性。作者讨论了评估适应度预测、序列生成和迁移学习能力的策略,同时警告不要过度优化可能存在缺陷的指标。



该领域的当前状态

该论文全面概述了现有的gLMs ,突出了正在探索的方法的多样性。一些关键趋势包括:

•  大多数模型专注于人类或植物基因组 ,少数几个处理细菌基因组。

•  单一物种和多物种训练方法并存。

•  基于Transformer的架构占主导地位,但也使用CNNs和状态空间模型。

•  上下文长度从几千碱基到超过10万碱基不等,最新的一些模型正在尝试百万碱基级的建模

•  掩码和因果语言建模目标都很常见。

•  许多模型除了原始DNA序列外,还整合了其他基因组信息。


挑战和未来方向

虽然gLMs显示出巨大的前景,但仍有几个需要解决的几个关键挑战 :

规模和效率 :模拟长距离基因组相互作用需要处理极长的序列,这推动了当前硬件和算法的极限。需要新的架构和训练策略来有效地扩展到全基因组建模。

数据质量和数量 :与自然语言或蛋白质数据集不同,基因组数据包含大量非功能序列。需要更好的策略来优先考虑信息丰富的区域,并整合跨物种的进化信息。

可解释性 :随着模型变得更加复杂 ,确保其预测具有生物学意义和可解释性变得至关重要。鉴于我们对基因组功能的理解不完整,这尤其具有挑战性。

评估 :开发真正捕捉生物学相关性的稳定基准仍然是一大挑战。需要与生物学领域专家一起解释模型所得到的结果

与其他数据的整合:充分理解基因组c如表观遗传学、转录组学和3D基因组结构 )整合。
关于该领域未来方向还存在如下的重要问题 :

•  scaling law 是否适用于gLMs?如果是,学术界如何确保获得必要的计算资源?

•  我们如何建模不同尺度的基因组(从个别基序到全基因组)?

•  将群体遗传数据和结构变异整合到gLMs中的最佳方式是什么?

•  我们能否对基因组间建模存在难度差异有更深入的理论理解?


结论

基因组语言模型代表了从现有大量基因组数据中提取信息的强大新方法。通过学习DNA序列中的复杂模式和依赖关系,这些模型有可能显著提高我们对基因组功能和进化的理解。

然而,目前仍不能将gLMs视为万能的解决方案。相反,它们应该被视为计算生物学工具箱中的另一个有用工具,补充现有方法。该论文强调需要仔细的基准测试、生物学解释和持续创新,以充分挖掘gLMs的潜力。

随着该领域的发展,机器学习专家和生物学家之间的密切合作将至关重要。通过结合尖端的AI技术和深厚的基因组专业知识 ,我们可以开发出不仅有令人印象深刻的性能,还能够提供真正生物学洞见的模型。

未来几年基因组语言模型会快速进展。随着这些模型的规模扩大并整合更多样化的数据源,它们可能有助于揭开基因组的一些最深奥的奥秘——从基因调控的语法到塑造基因组架构的进化力量。虽然仍然存在重大挑战 ,但从基础生物学到个性化医疗等领域的潜在影响是巨大的。


【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!

AIMShare课代表咨询

童鞋,看这里

目前已有1000+人关注加入我们

       

       



推荐阅读
 high-quality content 



申请季前谈:如何选择适合自己的课题组



从小白到Nature子刊发表,AI forBiology/Science学习路径


如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章