METAGENE-1:在超过1.5T DNA和RNA碱基对上训练的 7B参数自回归Transformer 模型

文摘   2025-01-11 07:45   福建  

研究人员来自南加州大学、Prime Intellect和核酸观察站,推出了METAGENE-1,这是一个专为分析人类废水样本中的元基因组序列而设计的7亿参数自回归变换器模型。METAGENE-1基于超过1.5万亿个DNA和RNA碱基对的数据集,通过先进的字节对编码(BPE)标记化策略,成功捕捉到复杂的基因组多样性,并在病原体检测和异常检测等任务中表现出色,显著提升了公共卫生监测的能力。 


参考:

  1. https://github.com/metagene-ai/metagene-pretrain
  2. https://metagene.ai/metagene-1-paper.pdf
  3. https://huggingface.co/metagene-ai



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章