与此同时,2024年10月30日,Broad Institute的Shao Bin博士与独立研究者Yan Jiawei博士在《Nature Communications》杂志上发表了题为《A long-context language model for deciphering and generating bacteriophage genomes》的最新研究成果,推出了生成式DNA大语言模型megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练,不仅能够准确预测噬菌体的必需基因,还能生成长达10万碱基对的新基因组片段,展示了如同自然语言写作般生成DNA序列的能力。此外,模型在学习过程中获得的深层信息(embedding)还可应用于蛋白质突变效果预测、基因调控研究以及无标注DNA片段分类等多个下游任务,展现出良好的泛化能力。尽管这两项DNA语言模型研究均发表在顶级期刊上,但两者的团队规模和计算资源却大相径庭。本期我们将从模型参数、计算资源和模型功能等多个角度分析DNA大语言模型的研究现状、机遇与挑战。