【Mol Plant 】扬州大学张韬教授课题组开发了系列基于植物基因组的基础DNA大语言模型

学术 2024-12-22 21:38 上海

来源：MP

近日，扬州大学农学院张韬教授课题组在Molecular Plant在线发表了题为PDLLMs: A group of tailored DNA large language models for analyzing plant genomes的研究论文，开发了一系列基于植物基因组的基础DNA大语言模型，该研究构建的130M大小的plant DNAMamba模型仅以十分之一的参数量就打败了由InstaDeep、Google DeepMind顶尖机构联合开发的同类模型AgroNT。模型的开发填补了植物基因组研究中缺乏适宜本地化运行的基础DNA大语言模型的空白。

https://doi.org/10.1016/j.molp.2024.12.006

研究背景

大语言模型（Large language models，LLMs）是一类利用大规模数据进行预训练的语言模型，在过去的几年间，LLMs已在生成式人工智能领域得到了广泛的应用，如ChatGPT、Stable Diffusion等。传统大语言模型最初被设计用于处理人类语言，近年来也逐渐被应用于DNA和氨基酸序列的分析中，它可以在复杂的生物大数据中学习到特定的模式或相关性，从而实现对基因组任务的预测。近年来，许多代表性的基础DNA大语言模型被开发出来，包括HyenaDNA (Nguyen et al., 2024)、DNABERT-2 (Zhou et al., 2023)和Nucleotide Transformer（NT）(Dalla-Torre et al., 2024)等，这些模型在组蛋白修饰，启动子，增强子，剪切位点等任务上都展现出了良好的预测能力。然而这些模型主要基于人类基因组或其他非植物的基因组进行构建，因此在植物基因组分析中存在限制。最近InstaDeep、Google DeepMind团队共同开发了一个植物的基础DNA大语言模型AgroNT (Mendoza-Revilla et al., 2024)，在多个基因组任务中均表现优异，然而该模型较大，不适用于个人和缺乏计算资源的实验室。鉴于此，扬州大学张韬团队构建了一套专为植物基因组量身定制的DNA大型语言模型——Plant DNA Large Language Models (PDLLMs)，能够在单张消费级显卡上实现高效的训练和推理。

研究内容

在该研究中，作者首先基于14个代表性的植物参考基因组，结合5种先进的基础架构设计，包括BERT, NT, GPT, Gemma和Mamba，构建了一系列大小在100M左右且适用于植物的基础DNA大语言模型。之后作者构建了一套植物基因组预测数据集，包含核心启动子、序列保守性、多种组蛋白修饰、lncRNAs、开放染色质和启动子活性的预测任务。将先前构建的不同DNA大语言模型应用到这些预测任务中，并与3个代表性DNA大语言模型（DNABERT-2、NTv2和AgroNT）进行比较，结果表明该研究构建的大语言模型整体上优于其他非植物的DNA大语言模型。除此之外，基于Mamba的植物DNA大语言模型几乎在所有预测任务中均强于比其参数量多10倍的植物基础模型AgroNT。说明基于新架构的DNA模型在效率和性能上都更有优势，并且能够更好地被个人用户使用。

考虑到不同分词方式（tokenizer）对模型性能的影响，作者也比较了不同分词方式的plant DNAMamba模型在预测不同基因组任务时的效果。结果发现基于K-mer的分词方法和基于BPE分词方法的模型在不同任务上的表现存在差异，这些差异很有可能来自于预测序列的长度，序列组成以及任务类型等。作者总结了单碱基分词，1-mer至6-mer分词以及BPE分词下模型在不同任务上的预测效果，供用户参考以选择最合适的分词方法。

图1. 植物基础DNA大语言模型的构建和比较

该研究进一步比较了DNA大语言模型和非大语言模型在植物基因组预测任务中的性能。结果发现不论是在lncRNAs任务，启动子强度任务还是开放染色质预测任务上，plant DNAMamba模型表现都优于基于CNN或者LSTM架构的专用深度学习模型。该结果反映出了DNA大语言模型的高效和普适性，仅需要单个基础模型就可以实现多种基因组任务的预测和分析。

最后，作者基于所有构建的模型，开发了一个用户友好的在线预测平台，支持多种核心基因组任务的预测，同时提供了最优模型的推荐，方便湿试验人员快速进行序列分析。预测平台的访问地址为：

https://finetune.plantllm.org或https://bioinfor.yzu.edu.cn/llms/finetune。

图2. PDLLMs在线预测平台

综上，该研究构建了一系列植物基础DNA大语言模型，能够在单块消费级显卡上进行训练和推理，为个人或缺乏计算资源的实验室提供了选择。此外研究展现了植物基础DNA大语言模型在基因组预测中的强大能力，构建的DNA大语言模型和植物基因组预测数据，为后续更高性能的DNA大语言模型的开发提供了参考。可以预见DNA大语言模型的完善将为解析复杂的生命现象、推动作物改良事业作出不可替代的贡献。

为了方便开发者使用相关模型，作者同时将模型的微调和推理代码上传到了GitHub (https://github.com/zhangtaolab/Plant_DNA_LLMs)和Gitee (https://gitee.com/zhangtaolabyzu/Plant_DNA_LLMs)上。同时已开放“植物大语言模型交流QQ群”（756369317），方便用户交流和讨论模型训练和推理时存在的问题。

扬州大学农学院张韬教授为该论文的通讯作者，扬州大学博士生刘冠卿为该论文的第一作者。该研究得到了国家自然科学基金、江苏省重点研发计划（现代农业）、钟山生物育种实验室课题、江苏省高校优势学科建设工程项目的资助。

参考文献：

Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J., Lopez Carranza, N., Grzywaczewski, A.H., Oteri, F., Dallago, C., Trop, E., de Almeida, B.P., Sirelkhatim, H., et al. (2024). Nucleotide Transformer: building and evaluating robust foundation models for human genomics. Nat Methods 10.1038/s41592-024-02523-z.

Mendoza-Revilla, J., Trop, E., Gonzalez, L., Roller, M., Dalla-Torre, H., de Almeida, B.P., Richard, G., Caton, J., Lopez Carranza, N., Skwark, M., et al. (2024). A foundational large language model for edible plant genomes. Commun Biol 7:835. 10.1038/s42003-024-06465-2.

Nguyen, E., Poli, M., Faizi, M., Thomas, A.W., Sykes, C.B., Wornow, M., Patel, A., Rabideau, C., Massaroli, S., Bengio, Y., et al. (2024). HyenaDNA: long-range genomic sequence modeling at single nucleotide resolution. Proceedings of the 37th International Conference on Neural Information Processing Systems. Curran Associates Inc.

Zhou, Z., Ji, Y., Li, W., Dutta, P., Davuluri, R., and Liu, H. (2023). DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome. arXiv 10.48550/arXiv.2306.15006.

为了不让您最关心的内容被湮没

防止我们一不小心失散

快把“iPlants”设置为星标吧★

只需三步↓↓

文章顶部点击「iPlants」名称进入公众号主页，点击右上角「三个小点」，点击「设为星标」，iPlants名称旁边出现一个黄色的五角星，就设置成功啦~

微信加群

iPlants专注于全球植物科学前沿研究报道，已有二十万多学者关注。现已组建了30个500人/群的植物科学研究的研究生/教授的实名认证交流群，其都来自全球各大高校和研究所的同学和老师。欢迎从事植物科学相关研究的同学和老师加入我们，一起讨论学术和梦想。温馨提示：加iPlants助手微信号(ID: iplants-1)或长按下面二维码时进群时，请备注一下学校+专业+学生/老师，以便我们能拉你进相应的交流群，否则不予通过）

投稿、商务合作、转载开白名单等事宜请联系微信ID：iplants或18321328797 或邮箱：703131029@qq.com

iPlants

传递有趣的、有意义的植物科学研究

安徽省政府与西北农林科大签署战略合作协议, 省长出席

【Nature Plants】梦想基因！超表达一个基因，可提高产量和抗性

山东大学生命科学学院白明义团队揭示小麦氮信号转导的新机制

中国科学院晁代印研究组应邀发表关于植物金属离子稳态的长篇综述

国自然中标真不难！十年评审专家1v1本子精修，中标率提升58.6%！专家免费直播答疑！

【招聘】重庆大学生命科学学院植物学团队招聘启事

哀悼！华南农大原副校长（正厅级）逝世

发Science文章，中国农科院揭示复粒稻遗传奥秘，再入选2024 年国内十大科技新闻

华南植物园在双生病毒中发现一种新型的基因表达增强序列

国自然中标真不难！十年评审专家1v1本子精修，中标率提升58.6%！专家免费直播答疑！

【人物】学杂交水稻育种后，跨界养猪，成为院士！

【招聘】上海交通大学农业与生物学院王韵婧课题组诚聘博士后

【Nature亮点】陕西师大等揭示全球变暖让水稻质量下降

重磅！一农林高校雄安校区开工

【Nature Plants】新方向！植物通过非自我反应基因（GNSR）的剂量响应环境微生物胁迫的机制

科技部发文，科技体制迎来重大变革！

在大豆中过量表达病毒突变型包膜蛋白实现对马铃薯Y病毒的非株系特异性抗性

【招聘】华南农业大学林学院林木细胞壁研究团队诚招2025级博士研究生及博士后

【招聘】中国水稻研究所王克剑团队招聘无融合生殖固定杂种优势方向博士后

继Cell后，刘宏涛团队在Cell子刊发文发现蓝光受体CRY1平衡植物光合和免疫

国自然中标真不难！十年评审专家1v1本子精修，中标率提升58.6%！专家免费直播答疑！

用旧图 “拉伸” ？中国农科院论文受质疑，作者回复

大赚5个亿！Nature Communi杂志今年发文10068篇，国内占36%

【Plant Cell 】超表达一个基因，水稻抗稻瘟病增强

交叉学科是未来！合成生物学与环境工程相结合开创藻类处理畜牧业废水新纪元

国自然中标真不难！十年评审专家1v1本子精修，中标率提升58.6%！专家免费直播答疑！

【招聘】重庆大学生命科学学院植物学团队招聘启事

New Phytologist等成果汇总！植物真菌单细胞纤维素，无需荧光标记，也可实现高分辨化学成像

2024年中国生态学学会会士增选初步候选人名单公布

国内农学领域再发Cell

2024年中国科学院年度人物和年度团队拟表彰名单出炉！

【Plant Cell】西瓜熟不熟？一个基因的自然变异可控制

【Mol Plant】2024年技术方法与资源类文章总结(一)

大牛综述！四川大学张跃林组发表水杨酸在植物免疫中的作用及其与其他植物激素互作的综述论文

【招聘】华南农业大学林学院林木细胞壁研究团队诚招2025级博士研究生及博士后

线上免费参会 | 转发朋友圈！2025绿色植保技术创新交流研讨会

获评A！农学最强“双非”高校，来了！

省农科院院士团队在Mol Plant发表文章，在花生研究领域中取得重要突破

【Nature Plants 】新方向！研究揭示N-糖基化修饰促进植物免疫受体激酶激活的新机制

实现DNA-free的CRISPR/Cas9技术！韩国全北国立大学在生菜中开发了基于RNA的高效腺嘌呤和胞嘧啶碱基编辑器

【招聘】福建农林大学吴双教授团队招聘博后及科研人员公告

【招聘】中国科学院昆明植物研究所植物互作分子调控机制人才组招聘启事

【Cell】历时数十年！国内团队破解害虫防御和解毒机制

中国农科院/中国农大/西北农林/云南农大/江西农大等专家出席，2025全国作物高产高效栽培与生态耕作学术研讨会

重磅！市委副书记任农业大学书记！

好想法！同时编辑两个基因，在T0代“一步法”获得非转基因引导编辑水稻植株

种业春天要来了！云南白药成立种业公司！

2024综述文章推荐——植物非生物胁迫和生物胁迫

【招聘】中国农业大学植物保护学院刘俊教授团队博士后招聘公告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉