DNA语言模型：理解基因组的强大新工具

文摘 2024-09-24 12:36 中国香港

近年来，人工智能，尤其是自然语言处理（ NLP ）领域的进步，为分析和理解基因组序列开辟了令人兴奋的新可能性。正如语言模型可以学习人类语言中的复杂模式，基因组语言模型（ gLMs ）旨在捕捉DNA的复杂"语法"。来自加州大学伯克利分校的研究人员最近发表了一篇综述论文Genomic Language Models: Opportunities and Challenges ，探讨了这一新兴领域的机遇和挑战。

DNA语言模型的前景

从本质上讲，gLMs是在大规模DNA序列数据集上训练的深度学习模型。通过学习预测被遮蔽(MLM任务)或下一个(Causal)核苷酸，这些模型形成了丰富的内部表示，可以应用于各种基因组学任务。该综述强调了gLMs在三个关键应用领域显示出特别的前景：

1. fitness预测 ：gLMs可以以无监督的方式估计遗传变异而无需标记的训练数据。这一思路基于健康个体的参考基因组中不包含有害变异的假设，因此在这些数据上训练的模型自然会为有害突变分配较低的概率。前期在植物基因组中的早期结果(ArgoNT)令人振奋，

但其在人类基因组上的表现目前还参差不齐(Bend)。

2. 序列设计 ：gLMs有潜力生成具有所需特性的新DNA序列。这在合成生物学中可能有重大应用，从设计调控元件到生成整个人工染色体或基因组。虽然仍处于早期阶段，但gLMs已经显示出生成具有真实特征序列的一些能力。

3. 迁移学习：gLMs在预训练过程中学习的表示可以被微调或用作下游基因组学任务的特征(GPN)。这允许利用大规模未标记的基因组数据集来提高标记数据有限的任务的性能。例如预测基因表达、染色质可及性和注释基因组元件。

开发gLMs的关键考量因素

该综述概述了开发有效gLMs时需要考虑的几个重要因素：

训练数据 ：仔细收集并处理训练数据至关重要。与蛋白质不同，UniProt等数据库提供高质量序列，而基因组包含大量非功能DNA。作者建议优先考虑功能区域、对重复元件进行降采样，以及整合多个物种的数据以增加多样性等策略。

模型架构 ：虽然Transformer模型在NLP中占主导地位，但基因组领域提出了独特的挑战。卷积神经网络（ CNNs）擅长捕捉局部基序，而Transformers可以模拟更长距离的相互作用。混合架构和较新的方法（如状态空间模型）旨在结合这些优势。一个关键挑战是处理捕捉全基因组模式所需的极长上下文长度。

学习目标 ：大多数gLMs使用掩码语言建模（ MLM ，预测被掩码的核苷酸）或因果语言建模（ CLM ，预测下一个核苷酸）。每种方法在不同应用中都有优势。作者还讨论了分词策略（常为BPE ，单核苷酸或k- mer）和在训练过程中纳入额外基因组信息（宏基因）的方法。

解释：理解gLMs学习到的模式对于建立信任和获得科学洞见至关重要。该综述强调了诸如可视化学习的嵌入、分析注意力模式和从模型预测中重建序列基序等方法。

评估：由于模型预测与实际生物学功能之间的复杂关系，对gLMs进行基准测试具有挑战性。作者讨论了评估适应度预测、序列生成和迁移学习能力的策略，同时警告不要过度优化可能存在缺陷的指标。

该领域的当前状态

该论文全面概述了现有的gLMs ，突出了正在探索的方法的多样性。一些关键趋势包括：

• 大多数模型专注于人类或植物基因组，少数几个处理细菌基因组。

• 单一物种和多物种训练方法并存。

• 基于Transformer的架构占主导地位，但也使用CNNs和状态空间模型。

• 上下文长度从几千碱基到超过10万碱基不等，最新的一些模型正在尝试百万碱基级的建模

• 掩码和因果语言建模目标都很常见。

• 许多模型除了原始DNA序列外，还整合了其他基因组信息。

挑战和未来方向

虽然gLMs显示出巨大的前景，但仍有几个需要解决的几个关键挑战：

规模和效率 ：模拟长距离基因组相互作用需要处理极长的序列，这推动了当前硬件和算法的极限。需要新的架构和训练策略来有效地扩展到全基因组建模。

数据质量和数量 ：与自然语言或蛋白质数据集不同，基因组数据包含大量非功能序列。需要更好的策略来优先考虑信息丰富的区域，并整合跨物种的进化信息。

可解释性 ：随着模型变得更加复杂，确保其预测具有生物学意义和可解释性变得至关重要。鉴于我们对基因组功能的理解不完整，这尤其具有挑战性。

评估：开发真正捕捉生物学相关性的稳定基准仍然是一大挑战。需要与生物学领域专家一起解释模型所得到的结果

与其他数据的整合：充分理解基因组c如表观遗传学、转录组学和3D基因组结构）整合。

关于该领域未来方向还存在如下的重要问题：

• scaling law 是否适用于gLMs？如果是，学术界如何确保获得必要的计算资源？

• 我们如何建模不同尺度的基因组（从个别基序到全基因组）？

• 将群体遗传数据和结构变异整合到gLMs中的最佳方式是什么？

• 我们能否对基因组间建模存在难度差异有更深入的理论理解？

结论

基因组语言模型代表了从现有大量基因组数据中提取信息的强大新方法。通过学习DNA序列中的复杂模式和依赖关系，这些模型有可能显著提高我们对基因组功能和进化的理解。

然而，目前仍不能将gLMs视为万能的解决方案。相反，它们应该被视为计算生物学工具箱中的另一个有用工具，补充现有方法。该论文强调需要仔细的基准测试、生物学解释和持续创新，以充分挖掘gLMs的潜力。

随着该领域的发展，机器学习专家和生物学家之间的密切合作将至关重要。通过结合尖端的AI技术和深厚的基因组专业知识，我们可以开发出不仅有令人印象深刻的性能，还能够提供真正生物学洞见的模型。

未来几年基因组语言模型会快速进展。随着这些模型的规模扩大并整合更多样化的数据源，它们可能有助于揭开基因组的一些最深奥的奥秘——从基因调控的语法到塑造基因组架构的进化力量。虽然仍然存在重大挑战，但从基础生物学到个性化医疗等领域的潜在影响是巨大的。

【注意：转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者，可以备注“AIMS”联系课代表。也欢迎大家投稿！

AIMShare课代表咨询

童鞋，看这里

目前已有1000+人关注加入我们

推荐阅读

high-quality content

申请季前谈：如何选择适合自己的课题组

从小白到Nature子刊发表，AI forBiology/Science学习路径

如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

http://mp.weixin.qq.com/s?__biz=MzkyODczMTY4OQ==&mid=2247484608&idx=1&sn=ca0fe827b64975d947b986e1335200b3

AIMShare

AlMShare（Al with Mission and Social responsibility）是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养，致力于打破该领域信息差。

最新文章

申请季前谈：如何准备面试（委员会Commitee）

利用结构预测工具，开发RNA适体设计新方法！

特朗普当选美国总统：留学与科研或将迎来大地震

生信研究如何画图？收下这份硬核无广入门指南！

Nature: 研究生如何在老板面前抗压？

“数学天才”姜萍违反规则：科学同样需要质疑与真诚

如何在学术会议上拿捏成果展示？Nature有好建议！

单细胞研究必看！如何在自己的课题中使用单细胞大模型？

Nature：如果导师不愿意给推荐人写推荐信，怎么办？

绘制糖蛋白结构来揭示黄病毒科进化史，登上Nature

深度学习+神经元形态，详细梳理最新进展！（下）

空间转录组学数据怎么玩转自如？建图就可以了！

深度学习+神经元形态，详细梳理最新进展！(上）

申请季前谈：申请季面试，你准备好了吗？实用指南在此

DNA语言模型：理解基因组的强大新工具

学术先锋｜源自OpenAI老对手, 揭秘AlphaFold背后“神秘组织”的前世今生

结构生物学“去污名化”：AI虽好，也不能贪杯喔

CytoCommunity：图神经网络革新细胞邻域识别

不止于Alphafold3！深度解析AI预测生物分子相互作用那些事～

从AF2到AF3，AlphaFold又进化了！

如何将ChatGPT用于科研？Nature有建议！

机器学习在抗菌肽识别与设计中的应用

基于对比学习的酶蛋白功能预测工具，登上Science的工作如何在一年内产生深远影响？

从小白到Nature子刊发表，AI forBiology/Science学习路径

如何申请MPhil项目？港大学长经验贴

通俗解析生物信息学中的多模态研究：单细胞多组学

如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

语言模型革新同源蛋白检测，Nature Biotechnology一作聊聊论文里没有的细节！

如何写一个Research Proposal-以《基于煸炒过程加蒜技术的红烧牛肉烹饪方法》为例

从数据处理到模型训练，一文速览单细胞大语言模型进展

生物信息大模型卷起来了：应用与前景浅谈

申请季前谈：如何选择适合自己的课题组

破解RNA逆向折叠难题，扩散模型在生物大分子数据上的又一妙用！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉