Cell | 单细胞测序数据个体隐私的潜在隐患

学术   2024-10-14 14:30   四川  
撰文 | 格格

单细胞RNA测序技术(scRNA-seq)的发展极大地推动了我们对细胞层面基因表达变异和复杂生物学过程的理解,尤其是在人类健康研究方面具有深远影响【1】。人类细胞图谱(Human Cell Atlas)和CZ CELLxGENE数据库等大型数据集,汇聚了数百万个细胞数据,这些数据来自于数千名捐赠者【2,3】。同时,越来越多的个体数据集也包含数百名研究参与者或患者的数千个细胞样本,以及相关的基因型和表型数据。然而,随着scRNA-seq数据集的公开,隐私保护问题日益凸显。隐私信息泄露指的是未经个人同意,从匿名公开数据集中揭露个人信息的行为。功能基因组学数据共享中,隐私信息泄露已被证明是一个严重问题,尤其是在批量RNA测序数据中。参与者通常被选中研究可能具有敏感表型(如精神疾病状态)的生物学特征,而这些参与者的表型信息作为元数据被发布在研究中。因此,如果能够识别出这些研究参与者,他们的敏感表型信息也可能被泄露。

在批量RNA测序数据中,一种常用的隐私信息推断方法是链接攻击。这种方法涉及到使用来自已知个体的辅助信息来查询公开的匿名个体基因表达数据集,从而实现匿名数据集中个体的重新识别。一旦个体被识别,批量RNA测序数据中的任何元数据(包括疾病状态)都可以与该个体相关联。

近日,来自美国哥伦比亚大学生物医学信息学系的Gamze Gürsoy研究团队在Cell杂志发表题为Private information leakage from single-cell count matrices 的研究论文,该研究发现即使没有公开的eQTL数据,通过分析单细胞计数矩阵并结合一些基本的信息(如年龄)仍然可以准确预测个体的基因型并识别个体,从而泄露个体隐私


首先研究人员通过两种不同的场景演示了单细胞数据易受链接攻击。场景一:使用公开的批量组织eQTL信息。研究人员使用来自GTEx项目的12,360个显著eQTLs,对OneK1K和Lupus单细胞数据集进行链接攻击。将单细胞计数矩阵转换为标准化、细胞类型特异性、个体基因伪批量矩阵,并使用之前开发的基于极值的链接攻击方法进行基因型预测和链接。结果显示,在OneK1K、Lupusall和LupusHQ数据集中,分别有93.4%、81.4%和98.6%的个体被成功链接。场景二:使用公开的细胞类型特异性eQTL信息。研究人员使用OneK1K数据集中公开的26,597个细胞类型特异性cis-eQTLs,对OneK1K和Lupus单细胞数据集进行链接攻击。

使用细胞类型特异性伪批量矩阵和相应的细胞类型特异性eQTLs来预测基因型,并将这些预测的基因型与个体数据库进行链接。结果显示,在OneK1K数据集中,使用最丰富的细胞类型即可将99.8%的个体成功链接,使用所有细胞类型则可以将99.9%的个体成功链接。这些数据表明使用公开可获得的组织和细胞类型特异性eQTL信息,研究者能够以高精度将个体与他们的敏感表型信息联系起来,即使只使用少量细胞也是如此。

除了以上两种场景外,研究人员还开发了一种基于差异替代等位基因频率 (alternate allele frequency,△AAF) 的单细胞基因表达数据连接攻击方法,该方法不依赖于强基因型-表型相关性。他们使用OneK1K数据集中的一部分个体作为训练集,选择与基因表达水平相关的变体,并使用这些变体来预测OneK1K和Lupus数据集中剩余个体的基因型。结果显示,即使没有eQTL信息,该方法仍然可以实现高精度链接,在OneK1K和LupusHQ数据集中分别实现了100%和92.3%的链接准确率。研究人员还发现,△AAF方法进行链接攻击时,使用数量较多的训练样本可以进一步提高链接准确率。与场景一和场景二类似,即使使用数量较少的细胞,△AAF方法仍然可以实现高精度链接。

尽管基因型预测的准确性可能低于50%,但仍然可以利用这些预测来有效地将个体与他们的人口数据库联系起来。研究人员发现,即使基因型预测的准确性较低,链接攻击仍然可以识别出大量的正确预测基因型,并且这些正确预测基因型的独特组合可以有效地用于链接攻击。例如,使用GTEx eQTLs进行基因型预测时,虽然预测准确率低于55%,但仍然使用了大约3000个正确预测的基因型进行链接。

最后研究人员使用体外混合细胞系进行scRNA-seq实验,发现单细胞数据与批量数据之间存在显著的测量噪声差异。这表明单细胞数据在链接攻击方面存在隐私风险。即使在经过纠正和标准化后,单细胞数据中的残留噪声仍然会影响其与eQTLs之间的相关性。

图1 基于单细胞计数矩阵的隐私泄露风险

总之,这项研究强调了单细胞数据隐私保护的重要性,并为应对数据泄露风险提供了重要的启示。

原文链接:
https://www.cell.com/action/showPdf?pii=S0092-8674%2824%2901030-4

制版人:十一



参考文献




1. Haque, A., Engel, J., Teichmann, S.A., and Lo¨ nnberg, T. (2017). A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med. 9, 75.
2. Regev, A., Teichmann, S.A., Lander, E.S., Amit, I., Benoist, C., Birney, E., Bodenmiller, B., Campbell, P., Carninci, P., Clatworthy, M., et al. (2017). The human cell atlas. eLife 6, e27041.
3. CZI Single-Cell Biolo gy Program, Abdulla, S., Aevermann, B., Assis, P., Badajoz, S., Bell, S.M., Bezzi, E., Cakir, B., Chaffer, J., Chambers, S., et al. (2023). CZ CELL3GENE Discover: a single-cell data platform for scalable exploration, analysis and modeling of aggregated data. Preprint at bioRxiv.

BioArt

Med

Plants

人才招聘

会议资讯



BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)




转载须知


【原创文章】BioArtMED原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArtMED所拥有。BioArtMED保留所有法定权利,违者必究。


BioArtMED
BioArt姊妹号。关注医学最前沿,提高科学新认知,聚焦人类大健康。
 最新文章