[Nature Machine Intelligence | 论文简读] 深度评估单细胞基础模型
2025-01-02 19:18
湖北
Deeper evaluation of a single-cell foundation model
大规模基础模型通过在海量无标签数据上进行预训练,随后在特定任务上进行微调,近年来在医疗和生物学等多个应用领域取得了显著成功。scBERT是多个此类模型中的一个,旨在学习单细胞RNA测序数据的表示。该模型在112万个细胞上进行了预训练,以填补缺失的基因表达值,并在细胞类型注释任务上进行微调。作者复现了他们的结果,并进行了额外的基准比较和消融实验,以进一步了解其表现和潜在的优势与局限。研究表明,一个简单的逻辑回归基准模型在两个不同的数据集上,在细胞类型注释任务的微调中,表现得比scBERT更好或相当。即便是在“少样本学习”的设置下,逻辑回归也能与scBERT竞争,尽管在这种情况下,scBERT通常应该因为预训练的大量无标签数据而占优。此外,消融实验揭示了scBERT在表示学习方面的限制,特别是去除预训练后,模型在细胞类型注释任务上的表现没有显著下降,而scBERT在掩蔽预训练任务中表现良好,但并没有学习到有意义的基因表示。https://doi.org/10.1038/s42256-024-00949-w