研究人员来自南加州大学、Prime Intellect和核酸观察站,推出了METAGENE-1,这是一个专为分析人类废水样本中的元基因组序列而设计的7亿参数自回归变换器模型。METAGENE-1基于超过1.5万亿个DNA和RNA碱基对的数据集,通过先进的字节对编码(BPE)标记化策略,成功捕捉到复杂的基因组多样性,并在病原体检测和异常检测等任务中表现出色,显著提升了公共卫生监测的能力。
参考:
https://github.com/metagene-ai/metagene-pretrain https://metagene.ai/metagene-1-paper.pdf https://huggingface.co/metagene-ai
点个分享、点赞与在看,你最好看~