Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

学术 2024-12-09 21:01 北京

编辑丨王多鱼

排版丨水成文

题图为邵斌博士

以GPT模型为代表的生成式语言模型通过对海量文本的学习，具备了生成和理解复杂语言的能力，深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性，语言模型在基因组学领域也有了诸多应用，例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构，通过类似完形填空的方式进行训练，尽管可以理解DNA序列，但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄，一次只能处理较短的DNA片段，难以对完整基因组进行分析。

2024年10月30日，北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为：A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。

该研究实现了首个生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达10万碱基对的崭新基因组片段，也就是能够像写作自然语言一样生成DNA序列。另外，模型在学习过程中获得的深层信息（embedding），还能应用于蛋白质突变效果预测、基因调控研究，以及无标注DNA片段分类等多个下游任务，展现出良好的泛化能力。

这篇论文在预印本平台bioRxiv上线时，《生物世界》“未来百科”栏目曾与邵斌博士做过一期访谈，详情——专访博德研究所计算科学家邵斌：用DNA语言模型破译和设计生命

研究团队在NCBI GenBank等公开数据库收集了约10万个高质量噬菌体完整基因组作为训练数据。在分词环节没有采用传统的BPE分词器，或者以k-mer方式将DNA切成小片段，而将每个碱基看作独立的文字单元（token），避免了分词环节可能带来的偏差，同时可以使语言模型学习到单碱基精度的DNA调控和设计信息。在模型架构上借鉴了Meta公司开发的多层transformer架构，每层注意力机制用以处理不同精度的DNA信息，克服了传统transformer模型只能处理短序列的限制。最终模型使用了三层transformer结构，包含1.5亿个参数。可以一次性分析长达10万个碱基的DNA序列，足以覆盖多数噬菌体的完整基因组。

研究团队推测DNA大语言模型在训练过程中掌握了噬菌体基因组设计的一般准则，基因组序列的评分（模型损失）能够反映其生物学适应性。为验证这一想法，针对λ噬菌体基因组进行了基因敲除的模拟实验，对基因组不同位置片段进行突变，利用语言模型计算序列损失，并与实际的CRISPR 基因敲除实验结果进行直接比对。计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合，相应的预测准确度（AUROC）达到0.86。

这一结果表明，即便没有经过专门的训练和微调，大语言模型通过对大量噬菌体完整基因组的无监督学习，仍能准确识别其中的必需基因，展现了其在基因组分析中的应用潜力。这也是传统计算工具难以实现的功能，突显了语言模型在这一领域的独特优势。

另外，模型在学习过程中获取的DNA序列信息（即隐含层表示，embedding）能够应用于一系列的下游预测任务。比如在蛋白质突变效果预测上，模型表现和专业工具DeepSequence接近，甚至能够准确预测训练数据中没有出现过的细菌蛋白对应的突变效果。另外在5端非翻译区（5'UTR）转录活性的预测上，预测结果与实验数据的相关系数达到了0.8以上。最后模型的隐含层表示可以针对未标注DNA序列进行分类，构建的简单分类模型针对噬菌体，细菌和古菌序列得到了较高的准确度（AUROC=0.98）。

以GPT为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。研究团队利用megaDNA模型生成了一千条崭新的基因组DNA序列，并利用软件geNomad对序列进行系统评估。这些人工生成的基因组序列平均长度为4.3万碱基对，包含67个预测基因，这些特征与训练数据中的真实噬菌体基因组高度相似。其中22%的序列被识别为有尾噬菌体目（Caudoviricetes）。在表达调控方面，这些序列具有完整的可能发挥功能的基因表达系统，包括典型的细菌启动子序列（-35和-10区），其5端非翻译序列的转录活性显著高于随机DNA。同时在起始密码子ATG前具有富含A和G碱基的核糖体结合位点（RBS）。通过EMSFold进行结构预测，结果显示这些预测的基因能够形成有效的蛋白质折叠结构。在功能方面，预测基因编码了噬菌体所需的关键功能蛋白，涵盖尾部结构、DNA代谢、头部组装以及细胞裂解等功能。值得一提的是，这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。

综上所述，该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力，为噬菌体基因组注释和功能序列设计开辟了全新的路径。虽然目前生成的基因组片段还未能实现噬菌体的完整生命功能（例如有效自我复制）。但这项研究及其后续工作为从头设计以噬菌体为代表的完整生物体基因组奠定了新的理论基础，有望在医疗、农业、食品安全等多个领域取得广泛应用。

北京理工大学准聘教授邵斌（前Broad Institute计算科学家）为该论文的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。

邵斌课题组从事人工智能与生命科学交叉方向研究，拟每年招收硕士，博士研究生及访问学生，欢迎具有深度学习，物理学或相关交叉学科背景的学生加入，如有意向请投递简历，包含学习，工作经历以及主要研究内容。

我们也欢迎优秀博士后加入研究团队，要求：1）已经或即将获得博士学位；年龄不超过30周岁（含）。2）具有计算生物学，生物物理，深度学习等相关研究背景。3）良好的英文写作及交流能力，以第一作者身份在领域内刊物发表至少1篇SCI论文。待遇：学校采用年薪制具体面议，提供博士后公寓及协助子女入托入学。如有意向，请提供个人简历（包含推荐人信息），学位证明相关材料，以及反映学术水平的近5年代表性成果。

该招聘长期有效，邮件请注明“申请岗位名称 + 姓名”，联系方式：bshao@bit.edu.cn

论文链接：

https://www.nature.com/articles/s41467-024-53759-4

模型代码：

https://github.com/lingxusb/megaDNA

高颜值免费 SCI 在线绘图(点击图片直达)

最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习

生信宝典

学生信最好的时间是十年前，其次是现在！10年经验分享尽在生信宝典！

最新文章

iMeta 高被引论文66篇(12月更新版)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

NC 幽门螺杆菌基因组计划通过分析全球完整基因组深解析幽门螺杆菌种群结构

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

微生物组-宏基因组分析专题研讨会 (2025.5.9，线下+线上)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

某副教授相亲100多场总结出来的经验，网友：建议开源，发表论文...

平台已完成维护，恢复正常使用！百万次使用的高颜值在线绘图平台ImageGP系列教程

Science重磅论文 | 仅有两个作者，3个图，研究揭示植物如何实现防御和生长的平衡

Nature Communications | 基因组所王丽团队提出植物次生代谢物含量调节新机制

生信入门一对一，数据操作带你飞

Nature Communications：利用自然语言处理揭示微生物基因奥秘

微生物组-扩增子16S分析和可视化(2025.4)

NBT：人类肠道培养细菌的1520个基因组

经典入门 | 高级转录组分析和R数据可视化（2024.12）

Nature | 美国河流微生物基因组数据库（GROWdb）

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

NAR | 香港城市大学李帅成课题组连续推出三大生物信息学数据库，全面解析微生物组学研究关键要素

Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

微生物组-宏基因组分析专题研讨会 (2025.5.9，线下+线上)

《Science》指出总环的同行评审过程（外审环节）被操纵，总环深陷学术欺诈风波

探秘中华本草前世今生大型系列纪录片《本草流芳》开播

新课上线 | 单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

iMeta | 最全可视化韦恩图和集合图工具EVenn使用手册

Nature Genetics | 中国农业大学徐明良团队揭示玉米广谱数量抗性的分子机制

生信入门一对一，数据操作带你飞

iMeta 讲坛17 | 程全-论文发表：知己知彼

中国林科院经济林研究所2025年招聘启事（河南省郑州市）

单菌基因组组装、注释、遗传表征、分子分型、系统进化和传播溯源

中国林科院经济林研究所2025年招聘启事（河南省郑州市）

JAFC丨广西科学院谢能中研究员团队通过多糖基化途径促进苦味未成熟罗汉果中甜味剂罗汉果苷的生物合成

微生物组-扩增子16S分析和可视化(2025.4)

经典入门 | 高级转录组分析和R数据可视化（2024.12）

Nature Genetics | 基因组所周永锋团队建立葡萄全基因组选择育种体系

10 件令大学老师难受的事件排行，你最难受哪件？

收藏！2020-2024国家杰青、优青及首届杰青延续名单全汇总

生信入门一对一，数据操作带你飞

iMeta | 山一大李乐平/种微识别胃癌铜死亡特征相关分子亚型

iMeta 讲坛16 | 陈实富-面向产业的高性能生信软件开发和开源实践(11.28晚7点线上)

Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

经典入门 | 高级转录组分析和R数据可视化（2024.12）

国家蛋白质科学中心（北京）贺福初院士、常乘副研究员团队联合招聘博士后

Cell Reports-萧玉涛团队研究揭示超基因控制昆虫滞育发生的机制

生信入门一对一，数据操作带你飞

iMeta期刊第3卷第5期在线正式发布

iMeta期刊第3卷第5期封面：肠道菌群稳态

微生物组-扩增子16S分析和可视化(2025.4)

30岁当博导，入选国家杰青，被誉为学术女神！她却直言自己是个很“轴”的“女汉子”！

喜报 | iMeta被SCIE、ESI等数据库正式收录!(2024/11/8)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉