就像大语言模型一样,优秀的基因组基石模型可以捕捉演化过程塑造的多样的基因组的序列模式特征,并生成满足用户功能需求的序列[1]。
近日,就有一项发表在Science的工作介绍了这种基因组基石模型[1]。
此项来自斯坦福大学Brian L. Hie以及UC Berkeley Patrick D. Hsu等研究人员的工作通过数据库中上百万的原核生物与噬菌体包含上千亿碱基的基因组(没有详细的注释)来训练一个基于 StripedHyena架构(一种deep signal
processing architecture;70亿参数)的模型[2], [3]。发现该模型能够从分子(蛋白、ncRNA以及调控序列)到基因组水平预测其适应性(也就是突变对其的功能影响);并生成编码CRISPR-Cas9、转座子系统等核糖核蛋白复合物的序列(需要进一步的fine-tuning;这也是首个协同生成编码蛋白与RNA序列的语言模型),甚至生成整个看起来架构合理的基因组(1 Mb左右;只是从编码蛋白元件密度等方面比较合理,但是整体上还是有缺陷,缺少关键组分)[1]。
基因组基石模型从分子到系统再到基因组水平的预测和生成[1]。
该项工作2024年11月15日发表在Science;研究人员认为此类模型可以帮助人们进一步的基因组工程[1]。
Comment(s):
期待推进到真核基因组。
[1] E.
Nguyen et al., “Sequence modeling and design from molecular to genome
scale with Evo,” Science (80-. )., vol. 386, no. 6723, p. eado9336, Nov.
2024, doi: 10.1126/science.ado9336.[2] “GitHub
- togethercomputer/stripedhyena: Repository for StripedHyena, a
state-of-the-art beyond Transformer architecture.”
https://github.com/togethercomputer/stripedhyena (accessed Nov. 15, 2024).[3] M.
Poli et al., “Hyena Hierarchy: Towards Larger Convolutional Language
Models,” in International Conference on Machine Learning, 2023.
[Online]. Available: https://api.semanticscholar.org/CorpusID:257050308https://www.science.org/doi/10.1126/science.ado9336商务合作:mss@pku.edu.cn (要求:1. 过审核;2. 标题明确标注)