DNA大模型：理解基因组语言的强大工具

文摘 2024-11-16 08:22 中国

生命是一种语言，基因组语言模型（gLMs）旨在捕捉DNA的复杂"语法"。今日小编分享一篇来自加州大学伯克利分校发表的预印版综述文章：Genomic Language Models: Opportunities and Challenges。希望对你有所启发。

DNA语言模型应用潜力

本质上，gLMs是一种深度学习模型，它们在大量的DNA序列数据集上进行训练。这些模型通过学习预测被掩盖的部分（MLM任务）或下一个（因果）核苷酸，构建了丰富的内部表达，从而能够应用于多样的基因组学任务。综述文章特别强调了gLMs在以下三个关键应用领域的显著潜力：

适应度fitness预测：gLMs能够以一种无监督的方式评估遗传变异，无需依赖标记过的训练数据。这一方法基于一个假设，即健康个体的参考基因组不会包含有害变异，因此，在这样的数据上训练的模型往往会给有害突变赋予较低的可能性。在植物基因组的初步研究（例如先正达与InstaDeep合作的ArgoNT项目，可参考我们的往期推文：先正达的育种DNA大模型AgroNT到底如何？）取得了令人鼓舞的成果，但在人类基因组上的应用效果目前尚不一致（如Bend项目所示）。
序列设计：gLMs展现出生成具有特定特征的新DNA序列的潜力。这在合成生物学领域可能具有重大的应用价值，从设计调控元件到创造完整的人工染色体或基因组。尽管目前仍处于起步阶段，但gLMs已经初步证明了其生成具有实际特征序列的能力。
迁移学习：gLMs在预训练阶段学到的表达可以被进一步微调，或者作为下游基因组学任务的特征（GPN）。这使得可以利用大量的未标记基因组数据集来增强那些标记数据有限的任务的性能。例如，预测基因表达、染色质的可及性以及注释基因组元件等任务。

开发gLMs需考虑的关键要素

该文总结了在开发高效的gLMs时必须考虑的几个关键要素：

训练数据：精心搜集和处理训练数据是至关重要的一环。与蛋白质领域不同，基因组中充斥着大量非功能性的DNA，而像UniProt这样的数据库则提供了高质量的序列。因此，研究者建议在训练数据的选取上，应优先关注基因组中具有生物学功能的部分，对重复序列进行适当的降采样，并整合多个物种的数据以丰富多样性。
模型架构：尽管Transformer模型在自然语言处理（NLP）领域占据主导地位，但基因组学领域的独特性提出了新的挑战。卷积神经网络（CNNs）擅长识别局部的基因序列模式，而Transformers则能够处理长距离的基因相互作用。因此，混合架构和一些新兴方法（如状态空间模型）试图融合这些模型的优势。处理全基因组模式所需的极长上下文长度是一个主要挑战。
学习目标：大多数gLMs采用掩码语言建模（MLM，即预测被遮蔽的核苷酸）或因果语言建模（CLM，即预测下一个核苷酸）作为学习目标。这两种方法在不同的应用场景下各有优势。文章还探讨了分词策略（如BPE、单核苷酸或k-mer）以及在训练过程中融入额外基因组信息（宏基因）的策略。
解释性：理解gLMs所学习到的模式对于建立信任和获得科学上的洞察至关重要。综述中强调了多种方法，如通过可视化学习嵌入、分析注意力模式以及从模型预测中重建序列基序等，来提高模型的解释性。
评估：鉴于模型预测与实际生物学功能之间复杂的关联，对gLMs进行评估是一个挑战。作者讨论了评估适应度预测、序列生成和迁移学习能力的策略，并提醒不要过分追求可能存在缺陷的指标优化。

当前基因组语言模型领域概况

该文深入总结了当前基因组语言模型（gLMs）的发展现状，并强调了研究方法的多样性。文章指出的几个主要趋势包括：

大多数模型集中于分析人类或植物的基因组，而仅有少数模型致力于细菌基因组的研究。
同时存在专注于单一物种和涵盖多种物种的训练方法。
尽管基于Transformer的模型架构在该领域内占据主导地位，卷积神经网络（CNNs）和状态空间模型也被广泛使用。
模型处理的上下文长度差异显著，从几千个碱基对到超过十万个碱基对不等，部分最新模型甚至在尝试处理百万碱基对级别的基因组。
掩码语言建模（MLM）和因果语言建模（CLM）是两种普遍采用的建模目标。
许多模型不仅考虑了原始DNA序列，还整合了其他类型的基因组信息，以增强模型的性能和解释力。

面临的挑战与未来发展趋势

尽管基因组语言模型（gLMs）前景广阔，但仍面临若干关键挑战：

规模与效率：为了模拟基因组内长距离的相互作用，需要处理极长的DNA序列，这对现有的硬件和算法提出了挑战。我们需要开发新的模型架构和训练策略，以便有效地扩展至全基因组规模的建模。
数据质量与数量：与自然语言或蛋白质数据集不同，基因组数据中包含了大量非功能性序列。因此，需要更有效的策略来识别并优先处理那些信息丰富的区域，并整合不同物种间的进化信息。
可解释性：随着模型复杂度的增加，确保模型预测的生物学意义和可解释性变得极为重要。鉴于我们对基因组功能的理解尚不完全，这一点尤其困难。
评估：创建能够准确捕捉生物学相关性的稳定评估基准是一个重大挑战。需要与生物学领域的专家合作，对模型的结果进行解释。
与其他数据的整合：需要更全面地理解如何整合基因组的不同层面信息（例如表观遗传学、转录组学和3D基因组结构）。

该领域的未来发展方向包括以下重要问题：

规模法则scaling law 是否适用于gLMs？如果适用，学术界应如何确保获取必要的计算资源？
如何对不同尺度的基因组进行建模，从单个基序到整个基因组？
将群体遗传学数据和结构变异整合到gLMs中的最优方法是什么？
我们能否对基因组间建模的难度差异有更深入的理论认识？

结论

基因组语言模型是挖掘海量基因组数据信息的一种强大新工具。它们通过深入学习DNA序列的复杂模式和相互依赖关系，有望显著增进我们对基因组功能及其进化历程的认识。

尽管如此，目前仍不能将gLMs视为万能的解决方案。更恰当的是，它们应被看作是计算生物学工具箱中的一个有益补充，用以辅助现有的研究方法。论文中特别强调了进行细致的基准测试、生物学上的解释和持续的创新是发挥基因组语言模型潜力的必要条件。

随着这一领域的发展，机器学习专家和生物学家之间的紧密合作显得尤为重要。通过结合先进的人工智能技术和深入的基因组学知识，我们有望开发出既性能卓越又能够提供真正生物学见解的模型。

预计在未来几年，基因组语言模型将取得迅猛进展。随着模型规模的扩大和更多样数据源的整合，它们将有助于揭示基因组的一些最深奥的秘密——从基因调控的规则到影响基因组结构的进化力量。尽管挑战依旧存在，但基因组语言模型在基础生物学乃至个性化医疗等领域的潜在影响无疑是巨大的。

http://mp.weixin.qq.com/s?__biz=MzI0NzA3MTk2NQ==&mid=2662941322&idx=1&sn=e901f39f5e786898f2973322815a8602

生物信息与育种

致力将生信、AI、大数据、云计算等技术应用于现代生物育种

最新文章

José Crossa综述：机器学习算法将大数据转化为对育种精度的预测

玉米研究越来越接地气了

DNA大模型：理解基因组语言的强大工具

中国工程院院士孙其信：我国智能育种有望实现根本性突破

Science Bulletin | 科学研究范式转变：从数据密集型科学到机器人科学家

先正达的育种DNA大模型AgroNT到底如何？

中科院75项首创科技成果公布，“分子设计育种”、“小偃6号”入选

反向育种要是做成了，种子行业会不会乱套？

综述 | 基因重复驱动的演化：基因组学时代的回顾与展望

中国科技期刊卓越行动计划二期拟入选项目公示！JIA评A档、Cell Research评B档？

软科2024最新世界一流农学学科排名发布，中农超越瓦大，成全球第一！

Cropin推出首个实时生成式AI驱动的农业智能平台Sage

农业知识智能服务应用场景构建

这篇发表在New Phytol.上的水稻基因研究文章值得大家借鉴

分子互作实验有哪些？酵母双/单杂、BiFC、Co-IP、EMSA、ChIP......该怎么做？

当AI开始思考：MIT教授、《人工智能时代》作者胡滕洛赫尔前瞻性演讲，探讨AI发展趋势及其对未来的革命性影响

关于征集“2025中国种子（南繁硅谷）大会”田间展示品种的通知

瑞典农业育种公司OlsAro融资开发人工智能作物育种平台

Cell Research | 浙大、农科院和阿里联合开发AI模型DeepFDML破译棉花品种改良“密码本”

第四届三亚国际种业科学家大会将于2025年1月8-10日举办

又一篇Science发布！多位农大教授联合发表，机器学习与深度学习在作物改良中的重要作用！

募格编辑论文润色，首单享9折优惠，免费提供润色证明

最新中国种企销售top20、品种top10

PBJ | 华中农大谢为博等开发水稻抽穗期跨环境精准预测新方法

Nature Genetics | 基因组所周永锋团队建立葡萄全基因组选择育种体系

JIPB | 李林综述：大数据和人工智能辅助作物育种进展与展望

邹学校院士综述 | 中国辣椒育种60年回顾与展望

第七届全国植物青年科学家论坛通知（第二轮）

玉米品种近40年来累计推广面积前20强及年度前10强排行榜

如何做分子互作实验？Y2H、Y1H、BiFC、Co-IP、EMSA、ChIP......

Mol Plant | 程时锋综述：植物基因组重测序与群体基因组学

加入CIMMYT，成为国际种业研发与推广的领航者！

酵母双杂、双分子荧光互补、免疫共沉淀、酵母单杂、凝胶迁移实验、染色质免疫共沉淀等核心技术（理论+实操）学习交流会

育种 4.0 与人工智能在作物改良中的应用概述

AI蛋白“相关”国内的公司

Annu. Rev. Plant Biol（IF=21.3）| 深度学习在植物表型中的应用

分子互作咋做？

继“总环”之后，不再拒稿的一区顶刊eLife也被On Hold了

GPB | 王向峰综述：机器学习技术驱动植物AI育种

重磅培训 |（理论+实操）2024分子互作分析技术学习交流会，酵母杂交，CoIP，RIP，REMSA等等

罗锡文院士：智慧农业的关键技术与实践

2024年软科中国大学专业排名（生物学、作物学、农学等）

Field Crop Res | 中国热科院甘蔗中心发布甘蔗智慧育种的全新架构

Nat. Genet | 中农董朝斌团队揭示玉米驯化基因tsh4在株型和穗型发育中的调控作用

生信人员与IT人员如何联动合作？

最新种业上市/拟上市公司盘点

重磅书讯！院士作序，北林教授出版《中国蔷薇属》专著

世界稻米产区三十强

Cell Res | 首个知识与数据联合驱动的跨物种生命基础大模型GeneCompass：解析基因调控密码，打造干湿融合新范式

中国工程院院士赵春江：农业大模型与知识服务平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉