单细胞免疫组TCR/BCR多样本使用cellranger aggr整合分析|生信开发实战

企业   2024-12-06 17:33   浙江  



对于单细胞转录组的项目,如果有多个样本,会使用官方软件cellranger aggr对单个样本的cellranger count输出结果进行整合。但基于免疫组的数据分析的整合,我们对于多个样本的数据是基于单个样本获得clonotype中的CDR3的nt序列,将不同的样本进行合并,并设置不同的MergeID。目前,官方cellranger也可以对多个样本中的免疫结果进行aggr整合,那整合后的结果如何,有哪些注意事项,10x官方又给有了什么样的回复呢?

本文主要测试cellranger对免疫组数据的合并分析,并按照不同的donor设置比较相应的输出结果。该分析方式可以用于后续的免疫组多样本整合分析,以及用于后续的mRNA整合分析。

 

操作方法

 

1.配置文件设置(aggr.csv,逗号分割),其中A-D列为必需列,对应列名及该列需要填写的信息如下:

  • sample_id:输入GEM 孔的唯一标识符【仅用于标签】

  • vdj_contig_info:cellranger vdj生成的contig文件【vdj_contig_info.pb】

  • donor:收集适应性免疫细胞(T细胞、B细胞)的个体(例如姐姐和兄弟分别被视为V(D)J汇总的独立捐赠者),具体的可以查看以下截图的设计,比如同一个个体的治疗前后【具体的设置还需要后续根据老师的实验设计进行调整】应该设置为相同的,仅来自同一个组别的不同个别则不能设置一样

  • origin:细胞数据集的具体来源。这可以是时间点(治疗前或治疗后、接种疫苗、时间A/B/C)、组织(外周血单个核细胞、肿瘤、肺)或其他元数据(健康、患病、疾病状态)。来源必须对每个捐赠者是唯一的。同一捐赠者的重复样本(例如同一细胞群体的多个文库)可以共享相同的来源,这将触发基于重复样本的额外过滤。

除了这些CSV必需的列外,cellranger aggr还接受包含库元数据的其他列(例如,接种状态)。这些自定义库注释不会影响分析流程,但可以在后续的Loupe V(D)J浏览器中进行可视化。

根据Donor和来源的组合方式,Cell Ranger可以以三种方式处理数据集:

  • 如果两个数据集来自同一位捐赠者但具有不同的来源,Cell Ranger将在合并的细胞集合上重新运行克隆型分组算法。这样,来自不同数据集的细胞可以属于同一克隆型。

  • 如果两个数据集来自同一位捐赠者和来源,Cell Ranger将执行额外的过滤操作,以去除特定的稀有伪迹。例如,Cell Ranger将过滤掉在同一来源下一个文库中存在但在另一个文库中不存在的扩展精确亚克隆型,这在随机从管子中抽取细胞的情况下是极不可能的。这些被认为是在从管子中吸管期间或之后,血浆细胞或浆细胞破裂并且所产生的碎片污染了GEMs,产生了扩展的虚假克隆型,这些是真实单个血浆细胞的残留物。

  • 如果两个细胞来自不同的捐赠者,那么Cell Ranger不会将它们放在同一克隆型中。

2.分析运行指令

#!/usr/bin/bashsingularity exec --bind /your_path /path_to_your_sigularity.sif bash -c "source /etc/profile;~/cellranger aggr --id=cellranger_aggr --csv=aggr.csv --localcores 16"###--id为输出文件夹###--csv为配置文件【格式参考第一步】###--localcores使用的线程数(后续sbatch投递任务时-c参数要保持一致)


结果说明

  • 整体分析结果文件夹【cellranger_aggr/outs】文件夹

1.分析报告web_summary.html

左侧结果为不同的Donor结果,右侧结果为相同的Donor结果,当Donor相同时会将相同的克隆型进行合并,因此两者合并后总的clonotypes数量不一致

对于上述情况,10x官方的解释如下,对应的回复如下(即使数据集的来源和供体不同,算法也会考虑所有数据集中的所有细胞来执行克隆型分组。在此过程中,它可能会将一些细胞识别为“背景”或“假阳性”并将其过滤掉,因此,导致整合后的细胞数小于单个样本识别的细胞数):

2.aggr分析结果与单个样本分析细胞数和clonotypes结果对比

单个样本输出的细胞与clonotypes结果如下表:

样本

Cells

Clonotypes

blood

5119

4770

heart

1172

1125


aggr整合后对应的输出结如下表:

样本

Cells

Clonotypes

blood

5119

4768

heart

1165

1128

通过结果对比发现,细胞数以及clonotypes结果有少许的出入

3.vdj_t结果文件夹

  • clonotypes.csv【与单个样本输出的clonotypes.csv结果一致】

clonotype_id:clonotype id信息,从1开始编码

frequency:该clonotype对应的细胞数

proportion:对应的百分比

cdr3s_aa:该clonotype对应的CDR3的氨基酸序列(分不同链)

cdr3s_nt:该clonotype对应的CDR3的核酸序列(分不同链)

inkt_evidence:对于 T 细胞,此列指示克隆型是否是一组 iNKT 细胞。证据是以分号分隔的链:匹配列表,其中链是 TRA 或 TRB 之一,匹配是genes, junction或 genes+junction

mait_evidence:对于 T 细胞,此列指示克隆型是否是一组 MAIT 细胞。证据是以分号分隔的链:匹配列表,其中链是 TRA 或 TRB 之一,匹配是genes, junction或 genes+junction

  • consensus_annotations.csv

clonotype_id:clonotype id信息,与clonotypes.csv中的ID对应

consensus_id:consensus序列ID,同一个clonotypes可能会有多个consensusID

length:该consensus序列核酸长度

chain:该consensus序列来自哪条链

v_gene:该consensus对应的V基因

d_gene:该consensus对应的D基因(由于D基因比较短,可能无注释)

j_gene:该consensus对应的J基因

c_gene:该consensus对应的C基因(对于BCR可以根据该基因注释进行分类)

full_length:是否为全长

productive:是否为productive

fwr1:预测的 FWR1 氨基酸序列(FWR(Framework Region,骨架区),FWR区是抗体或T细胞受体中的保守区域,其序列相对稳定且少数突变。FWR区域提供了结构稳定性和框架支持,并帮助维持抗体或受体的整体结构。它们位于CDR区域之间。典型的V(D)J转录本结构图如上所示:

fwr1_nt:预测的FWR1核酸序列

cdr1:预测的 CDR1 氨基酸序列(CDR(Complementarity Determining Region,互补决定区),CDR区是抗体或T细胞受体中的高度可变区域,对抗原结合具有关键作用。CDR区域包括CDR1、CDR2和CDR3三个亚区,它们负责与抗原相互作用并识别特定的抗原表位。CDR3区域通常是最具变异性和多样性的区域,对抗原识别起着至关重要的作用。

cdr1_nt:预测的 CDR1 核酸序列

fwr2,fwr2_nt,cdr2,cdr2_nt,fwr3,fwr3_nt,cdr3,cdr3_nt,fwr4,fwr4_nt:与上述概念一致,仅区域不同,不再重复描述。

reads:与该contig比对上的reads数

umis:与该contig比对上的UMI数

v_start:v基因起始位置【索引从0开始】

v_end:v基因终止位置【索引从0开始】

v_end_ref:参考v基因的终止位置【索引从0开始】

j_start,j_start_ref,j_end:与v基因类似

fwr1_start:fwr1区起始位置

fwr1_end:fwr1区终止位置

cdr1_start,cdr1_end,fwr2_start,fwr2_end,cdr2_start,cdr2_end,fwr3_start,fwr3_end,cdr3_start,cdr3_end:与前面描述一致,来自不同区

  • consensus.fasta

每个组装的contig的一致序列。它与顶部(最频繁的)精确亚克隆型的序列相同。一致序列应该是全长的(从5' UTR开始,以C基因引物结合位点结束)。数据质量差可能导致序列不完整。

  • filtered_contig_annotations.csv

barcode:Barcode ID信息(通过该ID与mRNA数据相关联)

is_cell:该ID是否为细胞

contig_id:contig id信息

high_confidence:该contig是否为高置信度

length:contig的碱基长度

chain:该contig来自哪条链

v_gene:对应的V基因注释信息

d_gene:对应的D基因注释信息

j_gene:对应的J基因注释信息

c_gene:对应的C基因注释信息

full_length:是否为全长

productive:是否为productive

fwr1,fwr1_nt,cdr1,cdr1_nt,fwr2,fwr2_nt,cdr2,cdr2_nt,fwr3,fwr3_nt,cdr3,cdr3_nt,fwr4,fwr4_nt:与consensus_annotations.csv表格对应的释义一致,不再赘述

reads:与该contig比对上的reads数

umis:与该contig比对上的umi数

raw_clonotype_id:此细胞条形码所分配到的克隆型的 ID。

raw_consensus_id:此contig分配到的共有序列的 ID。

exact_subclonotype_id:此细胞条形码所分配到的确切亚克隆类型的 ID。

donor:aggr分析时设置的信息

origin:aggr分析时设置的信息

Meta:VaccinationStatus:aggr分析时设置的信息

  • vloupe.vloupe

vloupe文件,后续可以使用官方软件Loupe Browser继续后续的数据分析挖掘。

 

参考资料

 

官方资料网址:https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/using/aggr


 

相关阅读

为什么大家都在做Astral-DIA?蛋白组学技术平台比较-备战国自然2025

解析细胞功能基因集变异——遇见GSVA|生信开发实战

单细胞评分分析R包Ucell

空间转录组细胞注释软件之Cell2location |生信开发实战 


       

 

    
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看


 


联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章