单细胞转录组技术因其能够揭示细胞间的异质性而越来越受到研究者的青睐。然而,由于成本问题,许多实验室在设计实验时仍然倾向于采用类似于传统bulk转录组的简化设计,即只有两组,每组两三个样本。
这种设计可以在有限的资源下最大化地利用单细胞转录组技术的优势,同时保持实验的可行性和成本效益。随着技术的进步和成本的降低,未来可能会有更多的实验室采用更大规模的单细胞转录组实验设计。所以,如果是因为条件限制,导致大家拿到了这样的单细胞数据,你会有什么很好的办法让它一定成为一个文章吗?
这里我们分享一个两分组仅4个单细胞样品就定位到目标基因的实例,是最近刷到了一个2024的文章:《Single-cell landscape identified SERPINB9 as a key player contributing to stemness and metastasis in non-seminomas》,研究的疾病是胚胎性癌(Embryonal Carcinoma, EC)是一种恶性肿瘤。
关于胚胎性癌的疾病背景
胚胎性癌(Embryonal Carcinoma, EC)是一种恶性肿瘤,属于非精原性睾丸生殖细胞肿瘤(Non-Seminomatous Testicular Germ Cell Tumors, NSGCTs)中的一种亚型 :
组织学特征:
胚胎性癌的组织学特征与胚胎干细胞(Embryonic Stem Cells, ESCs)相似,表现出高度的干细胞特性,包括自我更新和多向分化潜能。
患者通常表现为睾丸肿块、疼痛或不适,有时伴有体重减轻、发热或夜间盗汗等全身症状。
单细胞转录组实验设计:
可以看到,数据需要申请,在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005800
HRI744207 P1 male HRS975948 sample-1 Non-seminoma
HRI744208 P2 male HRS975949 sample-2 Non-seminoma
HRI744209 P3 male HRS975950 sample-3 Non-seminoma
HRI744210 P4 male HRS975951 sample-4 Non-seminoma
这4个样品是有分组信息的:
These samples comprised one that had metastasized to retroperitoneal lymph nodes (P1) three that displayed no metastatic behavior (P2-4)
拿到了单细胞转录组表达量矩阵后,首先是可以降维聚类分群:
起初看上面的细胞亚群比例条形图还以为是6个单细胞转录组样品,后来发现其实P1这个个体就是LNM+这个组,另外的3个病人是LNM-组别。还是4个样品,2个分组。
在上面的单细胞转录组分析中,通过降维聚类分群可以识别不同的生物学细胞亚群。文章里面的各种细胞亚群的标记基因和对应的细胞类型:
胚胎癌细胞 (EC cells)
标记基因:POU5F1(OCT4)、SOX2、NANOG 特点:这些细胞表现出类似于胚胎干细胞的高度“干性”,能够自我更新并具有多向分化潜能。
畸胎瘤细胞 (Teratoma cells)
标记基因:MGP(小鼠畸胎瘤相关蛋白)、NCAM1(神经细胞黏附分子1)、GPC3(糖蛋白3) 特点:畸胎瘤细胞能够分化成三个胚层(内胚层、中胚层、外胚层)的各种细胞类型。
髓系细胞 (Myeloid cells)
标记基因:C1QB(补体C1q亚组分B)、LYZ(溶菌酶)、CD14 特点:髓系细胞包括单核细胞、巨噬细胞、中性粒细胞等,参与先天免疫反应。
T/自然杀伤(NK)细胞 (T/NK cells)
标记基因:CD3E(CD3ε链)、CD3G(CD3γ链)、CD3D(CD3δ链) 特点:T细胞和NK细胞是适应性免疫系统的关键组成部分,参与细胞免疫反应。
B细胞/浆细胞 (B/Plasma cells)
标记基因:CD79A(B细胞受体CD79α链)、IGHM(μ重链)、JCHAIN(连接链) 特点:B细胞负责产生抗体,浆细胞是抗体分泌的终末分化细胞。
肌成纤维细胞 (Myofibroblasts)
标记基因:ACTA2(α-平滑肌肌动蛋白)、MYH9(非肌球蛋白重链9)、MYLK(肌球蛋白轻链激酶) 特点:肌成纤维细胞在组织修复和纤维化过程中起重要作用,具有平滑肌细胞和成纤维细胞的特性。
浆细胞样树突状细胞 (pDC)
标记基因:IRF7(干扰素调节因子7)、IRF8(干扰素调节因子8)、TCF4(T细胞因子4) 特点:pDC是树突状细胞的一种,主要参与抗病毒免疫反应和调节免疫耐受。
内皮细胞 (Endothelial cells)
标记基因:VWF(血管假血友病因子)、PECAM1(血小板内皮细胞黏附分子1)、CD34 特点:内皮细胞构成血管的内皮层,参与血管生成和维持血管完整性。
这些标记基因是识别和区分不同细胞亚群的关键,它们在单细胞转录组分析中用于聚类分析和细胞类型的鉴定。通过分析这些标记基因的表达模式,研究者可以深入了解样本中的细胞组成和功能状态。
然后作者也做了很多细化的分析,针对上面的胚胎癌细胞 (EC cells)以及畸胎瘤细胞 (Teratoma cells)都取子集探索,有monocle2和monocle3的拟时序分析,转录因子分享。
但是最终确定目标基因的环节,仅仅是一个差异分析。
Volcano plot showing higher expression level of SERPINB9, SUSD2 and ARFX in EC cells of primary tumor from metastatic patient.
上面的4个病人里面,其中(P2-4)是没有转移的分组,然后P1是有转移。所以在这两个分组做一个简单的差异分析即可,就定位到了SERPINB9这个目标基因 :
敲减过表达目标基因
有了目标基因,这个单细胞转录组课题就完成了一点半了,后面仍然是凑图凑实验数据环节!当然了,一个配套的转录组测序(RNA-Seq)必不可少,可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据,研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化,发现新的生物学标记,以及理解基因表达调控的复杂性。在生物学和医学研究中,对特定基因进行过表达(过表达,即让基因表达水平高于正常生理状态)或敲减(降低基因表达水平,包括完全敲除或部分抑制)是一种常用的功能性分析方法。通过这些技术,研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。常见的转录组实验设计就是干扰一下目标基因,然后两分组每个组内3个样品,是因为早期转录组测序费用昂贵。如果是二十年前做一个转录组样品可能会过万的费用,十年前就千把块钱了,五年前就五六百块钱,现在就三百多块钱了。详见:转录组价格腰斩哈!(优化升级后单个样本仅399元) 所以,建议大家敲减过表达前后转录组差异最好是都做一下,向CNS期刊看齐!比如2024的CELL文章:《A TCF4-dependent gene regulatory network confers resistance to immunotherapy in melanoma》
不过今天介绍的文章很明显就只是做了敲减,没有过表达目标基因。可以看到样品如下所示:https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005581
HRR1376616_f1.fastq.gz (3.35 GB) NCCIT-Ctrl-Rep1
HRR1376616_r2.fastq.gz (3.69 GB) NCCIT-Ctrl-Rep1
HRR1376617_f1.fastq.gz (2.96 GB) NCCIT-Ctrl-Rep2
HRR1376617_r2.fastq.gz (3.23 GB) NCCIT-Ctrl-Rep2
HRR1376618_f1.fastq.gz (1.95 GB) NCCIT-Ctrl-Rep3
HRR1376618_r2.fastq.gz (2.13 GB) NCCIT-Ctrl-Rep3
HRR1376619_f1.fastq.gz (2.74 GB) NCCIT-KD-Rep1
HRR1376619_r2.fastq.gz (2.94 GB) NCCIT-KD-Rep1
HRR1376620_f1.fastq.gz (2.65 GB) NCCIT-KD-Rep2
HRR1376620_r2.fastq.gz (2.89 GB) NCCIT-KD-Rep2
既然是简单的两分组,仍然是简单的差异分析和富集分析即可:
如果该文章的两个数据都提供了表达量矩阵,我们就可以很容易验证文章的数据分析合理与否。但是文章仅仅是提供了fastq文件的网页,还需要申请,流程就很麻烦了,所以我们默认这个研究是错误的哈!
但是,如果你恰好有类似的实验设计,两分组的转录组,无论是表达量芯片,还是转录组测序, 还是单细胞转录组,就可以做类似的分析啦。如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。
如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)
生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。
数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)
详细比较如下:
报名时间
每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。
授课时间和方式
生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。
数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。
钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看),直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。
新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!