Nature子刊：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

学术 2024-11-04 13:13 上海

编辑丨王多鱼

排版丨水成文

题图为邵斌博士

以GPT模型为代表的生成式语言模型通过对海量文本的学习，具备了生成和理解复杂语言的能力，深刻的变革了自然语言处理领域。而我们人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性，语言模型在基因组学领域也有了诸多应用，例如功能基因的标注和调控片段的预测等。但已有的DNA语言模型多采用BERT架构，通过类似完形填空的方式进行训练，尽管可以理解DNA序列，但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄，一次只能处理较短的DNA片段，难以对完整基因组进行分析。

2024年10月30日，北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为：A long-context language model for deciphering and generating bacteriophage genomes 的最新研究论文。

该研究实现了首个生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达10万碱基对的崭新基因组片段，也就是能够像写作自然语言一样生成DNA序列。另外，模型在学习过程中获得的深层信息（embedding），还能应用于蛋白质突变效果预测、基因调控研究，以及无标注DNA片段分类等多个下游任务，展现出良好的泛化能力。

这篇论文在预印本平台bioRxiv上线时，《生物世界》“未来百科”栏目曾与邵斌博士做过一期访谈，详情——专访博德研究所计算科学家邵斌：用DNA语言模型破译和设计生命

研究团队在NCBI GenBank等公开数据库收集了约10万个高质量噬菌体完整基因组作为训练数据。在分词环节没有采用传统的BPE分词器，或者以k-mer方式将DNA切成小片段，而将每个碱基看作独立的文字单元（token），避免了分词环节可能带来的偏差，同时可以使语言模型学习到单碱基精度的DNA调控和设计信息。在模型架构上借鉴了Meta公司开发的多层transformer架构，每层注意力机制用以处理不同精度的DNA信息，克服了传统transformer模型只能处理短序列的限制。最终模型使用了三层transformer结构，包含1.5亿个参数。可以一次性分析长达10万个碱基的DNA序列，足以覆盖多数噬菌体的完整基因组。

研究团队推测DNA大语言模型在训练过程中掌握了噬菌体基因组设计的一般准则，基因组序列的评分（模型损失）能够反映其生物学适应性。为验证这一想法，针对λ噬菌体基因组进行了基因敲除的模拟实验，对基因组不同位置片段进行突变，利用语言模型计算序列损失，并与实际的CRISPR 基因敲除实验结果进行直接比对。计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合，相应的预测准确度（AUROC）达到0.86。

这一结果表明，即便没有经过专门的训练和微调，大语言模型通过对大量噬菌体完整基因组的无监督学习，仍能准确识别其中的必需基因，展现了其在基因组分析中的应用潜力。这也是传统计算工具难以实现的功能，突显了语言模型在这一领域的独特优势。

另外，模型在学习过程中获取的DNA序列信息（即隐含层表示，embedding）能够应用于一系列的下游预测任务。比如在蛋白质突变效果预测上，模型表现和专业工具DeepSequence接近，甚至能够准确预测训练数据中没有出现过的细菌蛋白对应的突变效果。另外在5端非翻译区（5'UTR）转录活性的预测上，预测结果与实验数据的相关系数达到了0.8以上。最后模型的隐含层表示可以针对未标注DNA序列进行分类，构建的简单分类模型针对噬菌体，细菌和古菌序列得到了较高的准确度（AUROC=0.98）。

以GPT为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。研究团队利用megaDNA模型生成了一千条崭新的基因组DNA序列，并利用软件geNomad对序列进行系统评估。这些人工生成的基因组序列平均长度为4.3万碱基对，包含67个预测基因，这些特征与训练数据中的真实噬菌体基因组高度相似。其中22%的序列被识别为有尾噬菌体目（Caudoviricetes）。在表达调控方面，这些序列具有完整的可能发挥功能的基因表达系统，包括典型的细菌启动子序列（-35和-10区），其5端非翻译序列的转录活性显著高于随机DNA。同时在起始密码子ATG前具有富含A和G碱基的核糖体结合位点（RBS）。通过EMSFold进行结构预测，结果显示这些预测的基因能够形成有效的蛋白质折叠结构。在功能方面，预测基因编码了噬菌体所需的关键功能蛋白，涵盖尾部结构、DNA代谢、头部组装以及细胞裂解等功能。值得一提的是，这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。

综上所述，该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力，为噬菌体基因组注释和功能序列设计开辟了全新的路径。虽然目前生成的基因组片段还未能实现噬菌体的完整生命功能（例如有效自我复制）。但这项研究及其后续工作为从头设计以噬菌体为代表的完整生物体基因组奠定了新的理论基础，有望在医疗、农业、食品安全等多个领域取得广泛应用。

北京理工大学准聘教授邵斌（前Broad Institute计算科学家）为该论文的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。

邵斌课题组从事人工智能与生命科学交叉方向研究，拟每年招收硕士，博士研究生及访问学生，欢迎具有深度学习，物理学或相关交叉学科背景的学生加入，如有意向请投递简历，包含学习，工作经历以及主要研究内容。

我们也欢迎优秀博士后加入研究团队，要求：1）已经或即将获得博士学位；年龄不超过30周岁（含）。2）具有计算生物学，生物物理，深度学习等相关研究背景。3）良好的英文写作及交流能力，以第一作者身份在领域内刊物发表至少1篇SCI论文。待遇：学校采用年薪制具体面议，提供博士后公寓及协助子女入托入学。如有意向，请提供个人简历（包含推荐人信息），学位证明相关材料，以及反映学术水平的近5年代表性成果。

该招聘长期有效，邮件请注明“申请岗位名称 + 姓名”，联系方式：bshao@bit.edu.cn

论文链接：

https://www.nature.com/articles/s41467-024-53759-4

模型代码：

https://github.com/lingxusb/megaDNA

设置星标，不错过精彩推文

开放转载

欢迎转发到朋友圈和微信群

微信加群

为促进前沿研究的传播和交流，我们组建了多个专业交流群，长按下方二维码，即可添加小编微信进群，由于申请人数较多，添加微信时请备注：学校/专业/姓名，如果是PI/教授，还请注明。

点在看，传递你的品味

http://mp.weixin.qq.com/s?__biz=MzU1MzMxMzcyMg==&mid=2247757979&idx=1&sn=b8daf4c93664a16c3279291182b0b321

生物世界

生物世界重点关注最具转化应用前景和价值的生命科学前沿研究，深度访谈和报道生命科学领域前沿学者及创新企业

Cell：AI模型揭示，大多数被认为与疾病相关的肠道细菌实际与疾病无关

Cell子刊：不可思议！嚼木糖醇口香糖，显著降低早产率

何时吃，比吃得少更重要！Science论文显示，在适当时间进食可显著延长寿命

开放注册：2024第十届柳叶刀-中国医学科学院医学与健康大会11月21日举行

深圳大学发表最新Cell论文，开辟光受体的全新研究方向

Cancer Cell：中山大学邝栋明/魏瑗团队揭示癌周交叉呈递削弱了肝癌免疫治疗效果

Cell：陈玲玲系统总结小RNA和lncRNA的过去、现在和未来

减肥药临床试验论文中隐瞒数据被发现，安进公司市值蒸发120亿美元

开发下一代减肥药，Metsera公司完成超2亿美元B轮融资

Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

Cell子刊：宋尔卫院士团队发布乳腺癌新辅助治疗临床试验结果——效果良好、毒性可控

柳叶刀：全球成人糖尿病患者超过8亿，六成患者未接受治疗

Cell子刊：胥春龙团队等改造IscB-ωRNA基因编辑系统，通过单个AAV递送治疗遗传病

Nature子刊：清华大学张数一团队开发EvoAI系统，实现对蛋白质序列-功能空间的的进化压缩和AI重构

Nature Genetics：高栋/周斌/陈洛南/于晨团队发现前列腺中间态细胞的身份和命运决定机制

最大规模中药治疗脑出血的随机对照临床试验登上《柳叶刀》，结果令人惊讶

EZ-HRex™新技术，点突变/基因敲入，极速交付，快至6周！

刘如谦团队升级新一代类病毒颗粒，具有更高的生产效率和递送效率

黄三文院士团队最新Nature论文，敲除两个基因，让番茄更甜，且不影响产量

Cell：徐勇团队等发现这种人体产生的天然代谢物，能够抑制食欲、帮助减肥

乙肝治疗新突破：山东大学Cell子刊论文揭示益生菌及其代谢产物亚精胺促进HBV清除的机制

Cell：王晓群/吴倩/张旭团队构建人类背根神经节类器官，为人类痛痒感觉研究建立新平台

华中农业大学发表最新Cell论文

Nature Materials：钟喆等人开发基于水凝胶的人类淋巴类器官，解码B细胞反应

碱基编辑安全性新发现：腺嘌呤碱基编辑器引发染色体脱靶结构变异

我国学者研究显示，健康的衰老，始于良好的睡眠

Nature系列综述：清华大学李丕龙等解读凝聚体介导的转录调控及其与人类疾病的关系

AlphaFold3开源了！所有人均可下载代码，有望颠覆当前药物研发模式

Cell：时空组学迎来革新性突破！华大团队等开发时空算法，将全面支撑发育、疾病等研究

Nature Aging：最新研究揭开压力加速衰老之谜

Cell子刊：复旦大学迟喻丹团队等破解胶质瘤引发癫痫的隐秘链路

Nature头条：她用自己在实验室培养的病毒，成功治疗了自己的癌症，还顺便发了篇论文

Cell子刊：柳光宇/江一舟/龚悦团队揭示三阴性乳腺癌免疫逃逸新机制，并提出潜在治疗策略

Nature子刊：北京大学陈鹏团队开发相分离体系中蛋白质互作的时空特异性光交联技术

Nature子刊：大规模研究揭示腰椎间盘突出相关遗传风险因素

大规模研究显示，常喝牛奶与中国人癌症风险升高有关，还可能增加女性心脏病风险

吸入微塑料会降低大脑认知功能，首都医科大学高艾团队发现肺部菌群发挥了关键作用

Nature子刊：袁钧瑛院士团队揭示亚精胺抑制糖尿病发生及发展的新机制

开启智能手机控制POCT检测新时代：刘钢/黄丽萍/秦志国团队开发人体小分子无标记多重定量检测的革新利器

PNAS：李雪飞/田亮团队开发AI算法，精准预测多种肿瘤内的细胞丰度

柳叶刀：世界首例！iPSC干细胞治疗恢复人类视力

Cell子刊：井然等人揭示增强iPSC-CAR-T细胞抗肿瘤效果新方法

Nature子刊：顾宇昂等人开发金属有机纳米颗粒，用于mRNA递送

Science子刊：柴进团队等利用多组学对中国人群代谢相关脂肪性肝病进行临床精准分型

Nature子刊：任罡团队利用单颗粒电子断层扫描技术，绘制RNA分子动态折叠过程

Nature：曹云龙团队揭示新冠病毒流行谱系转变下的抗体免疫响应演化

Science：复旦大学余宏杰团队破解流感的全球传播密码——新冠大流行重塑全球季节性流感传播

Cell：中国博后一作，开发CRISPR-Cas13筛选技术，发现778个人类必需lncRNA

拜耳Co.Lab在中国迎来首家入驻企业——科动生物

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉