Cell Discovery丨陈盛泉/陈洛南团队合作揭示单细胞预训练模型中潜在的安全风险：后门威胁

学术 2024-12-06 14:30 四川

海量单细胞数据的积累给AI for Science研究，特别是单细胞预训练模型研究带来了新的契机，scBERT【1】、GeneFormer【2】、scGPT【3】、scFoundation【4】等模型相继被提出，在细胞类型注释、基因调控网络推断等多种重要任务上表现优异。然而，由于数据采集和模型训练中无意失误或刻意投毒等行为，单细胞预训练模型可能面临后门攻击的威胁，影响其在生物医学研究中的可靠性和准确性。

近日，南开大学数学科学学院陈盛泉副教授团队、中国科学院分子细胞科学卓越创新中心陈洛南研究员合作在 Cell Discovery 发表题为Unveiling potential threats: backdoor attacks in single-cell pretrained models的通讯文章(Correspondence)，首次提出了单细胞预训练模型后门攻击策略scBackdoor，在scGPT、GeneFormer、scBERT等多个单细胞预训练模型上进行了实验，攻击成功率均接近100%，表明现有的主流单细胞预训练模型普遍存在后门攻击风险，给单细胞研究特别是采用公开数据的AI预训练模型研究带来了严重的潜在威胁。

后门攻击是一种通过恶意篡改训练数据或模型，使模型在特定触发条件下输出攻击者指定结果的攻击方式。这种攻击能够在不影响模型正常功能的情况下隐藏恶意行为，严重威胁模型的安全性和研究的可信度。该通讯文章提出了后门攻击策略scBackdoor，以评估现有单细胞预训练模型在面对后门攻击时的脆弱性。以细胞类型注释任务为例，后门攻击的目标是使得中毒模型（被植入后门的模型）在输入正常的测试样本时表现良好，具有和正常模型相同的细胞类型注释性能，但若输入的样本中包含特定的触发特征，模型将输出攻击者预设的结果（如指定的某个细胞类型）。具体地，随机选择一种细胞类型作为目标类型（攻击目标），设定训练样本中中毒细胞的比例（如5%），scBackdoor根据基因表达异质性选取一定数量的非目标类型的细胞进行投毒，将低于阈值（默认为2）的基因表达水平设置为零，并在保持测序深度的前提下对其他基因的表达水平引入扰动，最后将这些中毒细胞标注为目标类型，使得中毒细胞能够混杂于正常细胞中，且带有攻击者预设的触发特征。

通过使用含中毒样本的训练集对单细胞预训练模型进行微调，使得模型学习中毒样本的特定触发特征，并将其注释为攻击者指定的目标标签。该研究使用多个数据集（胰腺、髓系、心脏、大脑、脾脏和胃癌组织等数据集）分别验证了scBackdoor的后门攻击策略对scGPT、GeneFormer和scBERT的有效性和隐蔽性。同时，该研究针对批次效应、特征选择、参数设置等问题开展了一系列的鲁棒性分析。此外，针对后门攻击的防御问题，该研究从数据或模型完整性验证、数据质量控制、数据异常检测、可疑模型纯化、初始模型设计等方面，提出了多种防御策略，降低后门攻击的风险。

总的来说，该通讯文章揭示了单细胞预训练模型在面对后门攻击时的脆弱性，特别是基于公开数据AI预训练模型的安全风险，对生物医学研究的准确性和可靠性提出了严峻挑战。未来的研究,如AI for Science研究，需要应对这样的问题，探索如何更有效地防御数据投毒和后门攻击，不断迭代和优化模型的准确性和可靠性。研究团队也计划开发更加鲁棒的数据质控和异常检测方法，并探索如何通过后门技术完成其他任务，例如准确识别罕见细胞类型，发挥后门技术的正向积极作用。

南开大学本科生冯思程、硕士生李斯羽分别为本文的第一、第二作者，南开大学数学科学学院陈盛泉副教授、中国科学院分子细胞科学卓越创新中心陈洛南研究员为本文的共同通讯作者。

原文链接：https://www.nature.com/articles/s41421-024-00753-1

相关代码与数据：https://github.com/BioX-NKU/scBackdoor

制版人：十一

参考文献

1. Yang, F. et al. scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data. Nat. Mach. Intell. 4, 852-866 (2022).

2. Theodoris, C.V. et al. Transfer learning enables predictions in network biology. Nature 618, 616-624 (2023).

3. Cui, H. et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat. Methods 21, 1470-1480 (2024).

4. Hao, M. et al. Large-scale foundation model on single-cell transcriptomics. Nat. Methods 21, 1481-1491 (2024).

BioArt

Med

Plants

人才招聘

会议资讯

BioART战略合作伙伴

（*排名不分先后）

BioART友情合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

BioArtMED

BioArt姊妹号。关注医学最前沿，提高科学新认知，聚焦人类大健康。

最新文章

Immunity综述丨肥大细胞可作为联系神经-免疫的“信号转换器”

Nat Commun + Cell Discovery | 李湘盈课题组揭示纯红细胞再生障碍病理机制并应用于新型细胞治疗开发

Cell Rep | 木良善/刘真/黄学锋合作揭示人类低质量胚胎的“逆袭”之旅

Cell Reports丨杨永广/刘文涛团队揭示定居巨噬细胞抑制抗肿瘤免疫的新机制

PNAS丨傅雄飞团队通过定量合成生物学研究揭示生物“迁徙淘汰”病毒新机制

Advanced Materials丨“压电增强热电”离子凝胶及多模态自供电医疗传感器应用

TCR-T与T细胞免疫方向，中国科学院分子细胞科学卓越创新中心（上海生物化学与细胞生物学研究所）赵祥课题组招聘博士后

湖南大学生物学院罗宵/信科院曾湘祥教授联合招聘“AI+Genomics方向”博士后

Cancer Cell 评论| 液体活检技术进展

Blood丨朱平/杨文钰/ Bertie Gottgens合作揭示儿童急性髓系白血病单细胞水平克隆演化及表观调控机制

JEM丨高大兴课题组发现宿主抗病毒新机制

JCI丨探秘血压昼夜节律调控的新机制——PRDM16

JCB丨郑莉灵/周以侹阐明核内无膜细胞器与核蛋白凝聚的调控模式

STTT丨曹丹、赵成建、田伯乐团队发表原创性临床研究论文，精准预测进展期胰腺癌免疫治疗的获益人群

复旦大学脑科学转化研究院31个独立课题组欢迎有志青年的加盟

首都医科大学附属北京朝阳医院杨旗教授课题组博后招聘

Nature Medicine丨年度回顾：将影响2025年医学的11项重磅临床试验

Science | 阿尔茨海默病患病风险男女有别的机制

Nat Commun | 刘剑峰/张岩合作揭示代谢型谷氨酸受体复合体定向不对称激活机制

Sci Adv丨周程沛/钱济先/郭征/高全有开发了一种仿生水凝胶，以改善成骨微环境，促进成骨和成血管耦合

J Exp Med | Ling Guang Sheng/薛瑞栋合作揭示中性粒细胞降低肝癌免疫敏感性机制

JAMA Network Open丨张哲团队揭示扁桃体或腺样体切除术与青少年心理疾病风险的关联

南京大学现代生物研究院肠道粘膜免疫及相关疾病发病机制实验室熊理凤课题组招聘

四川省医学科学院·四川省人民医院面向全球诚聘部分临床学科科主任、科副主任

NEJM丨产前cfDNA测序和孕产妇癌症的偶然发现

Nature｜干细胞样CD4+T细胞的分化控制抗肿瘤免疫

Diabetes丨FAM210A可缓解肥胖引发的脂肪肝、脂肪炎症、系统性糖耐受及胰岛素抵抗等代谢紊乱

CMI丨陆前进团队发现系统性红斑狼疮全新发病机制

Oncogene丨钟理等揭示靶向RBM39可抑制骨肉瘤生长并增强顺铂治疗敏感性

乐敏课题组解析禽特异沙门菌适应性遗传演化规律

浙江大学生命科学研究院周琦课题组招聘博士后、科研助理

复旦大学附属中山医院内分泌代谢病研究所李小英课题组博士后招聘公告

Cancer Discovery丨BBO-8520，一款同类首创GTP/GDP结合KRAS^G12C的直接共价双重抑制剂

Cell｜微生物负荷会干扰肠道菌群和疾病关联研究

Sci Adv | 揭秘胶质瘤“攻防战”：陈亮/刘宝辉/顾颖揭示肿瘤区域异质性与双靶点精准治疗策略

Adv Sci丨王玉刚/郭雨松课题组合作报道哺乳动物细胞内蛋白质共翻译修饰的现象及机制

Adv Sci丨黄建安/刘泽毅/卫林团队揭示碳青霉烯耐药鲍曼不动杆菌的致病新机制

乐敏课题组揭示人兽共患沙门菌的多维动态规律和关键控制点

中国医学科学院阜外医院宋江平教授课题组和中国农业大学生物学院吴森教授课题组的联合招聘

2025良渚实验室全球招募诚邀海内外优秀人才加盟

NEJM丨侯金林携同国内外研究团队发布乙肝治愈新策略研究成果

Cell丨降低酯化APOE与LDLR的结合可以缓解阿尔兹海默症

Nat Commun | 刘争团队发现鼻息肉中CD8+T细胞调控中性粒细胞炎症的新机制

Blood Adv/Leukemia | 王建祥/王迎/邱少伟/顾闰夏团队在CAR-T治疗领域取得系列新进展

Cancer Res丨郑桐森/邰升/肖云联合揭示胆道癌不同解剖亚型中特异性的T细胞特征

Oncogene丨焦保卫团队发现EGFR的分子胶降解剂

首都医科大学宣武医院葛献鹏团队诚聘博士后

浙江大学医学院附属第二医院大肠外科招聘

Science | 脑畸形可能是“伴侣病”：TRiC伴侣蛋白功能受损可致脑畸形和癫痫

Cell Stem Cell丨利用类器官和多组学技术构建人类神经系统形态发生素图谱

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉