继上个主题“当导师只给我一个RNA-Seq数据,我是怎么设计出5个课题的”
(共四期)
后,这次我以单细胞转录组测序为例进行说明,与RNA-Seq系列不同的是,这次我尽量先讲理论,再放案例和图。
由于测序公司一般都会给单细胞转录组测序的分析报告,这些信息一般包括这些:
1. 质控结果
2. 降维聚类结果
3. 细胞类型鉴定
4. 差异基因和功能富集:这个一般按照Cluster或者Cell type都有
5. SCENIC分析:鉴定调控子活性(比如转录调控因子、表观修饰酶等)
6. 拟时序分析:细胞分化轨迹
7. 细胞间通讯:
与常规的RNA-Seq转录组测序相比,单细胞转录组测序的信息量多了很多,最主要的是多了一个维度——细胞类型和细胞群的信息,而且按照现在的技术发展趋势,维度还会增加:比如空间转录组就多了空间位置的信息:
除了数据多了一个维度以外,大家觉得单细胞转录组测序难的最主要原因在于:如何从纷繁复杂的数据中发现线索,并通过分析和湿实验验证该线索。因此不仅需要了解该疾病的病理过程(研究主题,如有药物还要了解药理等信息)、疾病相关组织的病理特点和过程、参与某个病理过程的细胞群及其功能表型、调控细胞群表型的分子和机制等信息,还需要了解验证某个线索需要用的分析方法、实验方法以及该方法的优势和局限性。
所以早些年单细胞测序发文章的框架基本是这样的:
1. 造模-降维聚类-细胞类型鉴定——一般是Figure 1;
2. 按照不同的细胞类型展开做异质性分析。
比如分别对4-5个细胞类型做重聚类、亚群鉴定、差异基因、功能富集、SCENIC分析和拟时序分析等。——每个细胞类型一个Figure,这样差不多从Figure 2-Figure5就有了。
3. 细胞间通讯——一般是Figure6;
4. 最后做免疫荧光、FISH等验证——Figure7。
如果首次在某个疾病或者模型进行单细胞测序(创新性有了),并且对研究的期望不高(5分左右就行)的话,这样做确实是短平快发文章的好方法,而且基本上不用做个性化分析。
从导师的角度来说,一般希望充分利用好测序数据,所以怎么基于一个单细胞测序数据再进行挖掘,最好能找到4、5个不同的线索或者现象,然后每个学生做一个课题,这样才能对得起花的几十万费用。
不过随着单细胞测序单价的降低,大家能想到的常规模型和疾病都已经都有文章了,甚至已经有几十篇文章,这种情况下再做单细胞测序,研究设计就非常关键了。
另外单细胞测序的验证工作要求也越来越多,从一开始单细胞测序占5-6个Figure,到现在很多研究中单细胞测序结果只占1-2个Figure,还有很多研究把单细胞测序当作RNA-Seq这种常规技术来用。
所以这个主题的4期内容主要是解决这个核心问题的:如何从纷繁复杂的数据中发现线索,并通过分析和湿实验验证该线索。4个主题都是单细胞研究的常规思路,也都可以从常规分析里看到,我在说明的时候尽量展示常规分析里面的图,并做适当延伸。
在开始之前需要说明一下:每个数据都是不同的,我只是从角度进行说明,不是说这4个常规的主题在所有数据都可行。
主题1:以特定细胞群为主要创新点的思路设计
这个主题的主要创新点是围绕“特定的细胞群”展开,这个特定的细胞群范围比较宽,我大致列几种:
1. 特定细胞群的异质性分析。
对某个条件下的特定细胞群进行单细胞分析,比如肿瘤浸润T细胞,以系统揭示该特定细胞群的异质性、功能特性、分化等动态特征;既可以是健康生理状态,也可以是疾病背景或者特定条件下的细胞群。
肿瘤浸润T细胞
这类研究可以归到图谱(Landscape、Atlas、Resource等)类型研究中,特点是聚焦某群细胞提供非常重要的参考信息,这种类型的研究一般需要的样本量、细胞量比较大(特别是对于某些比例很低的细胞群),最早的时候一般会通过流式分选再结合单细胞测序进行研究,后来在单细胞RNA-Seq基础上还会结合其他单细胞技术(如单细胞ATAC-Seq、单细胞TCR-BCR Seq)或者其它组学技术,所以一般都能发很好的期刊甚至是主刊。
2.疾病相关细胞群的研究。
疾病相关细胞群,可以从多个角度进行“相关”,这里我们说两种:
在疾病中比例“显著升高或者降低”的细胞群以及在疾病中功能相关的细胞群。
2.1 在疾病中比例“显著升高或者降低”的细胞群。
这一点很好理解,对应到RNA-Seq就是“显著差异基因”,就是大家平时说的DEGs,所以我自己叫“显著差异细胞群(DECs)”,就是说这个细胞群在疾病组(或者干预组)比对照组(或者疾病组)的比例显著升高和降低。在数据分析上,DECs很容易通过计算Cluster、Cell type等在各组的细胞频率(Cell Frequency)差异的显著性得到,一般测序公司也会给这个结果。
需要注意的地方是:由于单细胞测序一般样本数量比较少(最常见的就是3对3),并且组内样本间一般有差异(即使去批次后),因此从初始Cluster和Cell type计算的细胞频率很多时候都没有显著性,除非是功能表型与疾病的病理特征非常强相关的细胞群,比如炎性症疾病组织中的促炎(或者抑炎)免疫细胞群(不是所有的细胞群都有显著性),比如很多情况下M1极化的巨噬细胞、Th1细胞等在这些模型中的比例是升高的,而这些细胞群也是研究病理特征关注的核心细胞群:因为相关性太强,即使不用单细胞测序,其它技术也很容易观察和验证,所以一般都比较经典(老)。
而如果某种细胞类型(Cell Type)没有差异,在对该细胞群进行重聚类的时候还是可能出现显著差异的(而且研究中很常见),只是有个问题要考虑:计算重聚类的细胞群的细胞频率时候的背景参考,比如对T细胞进行重新聚类:分为T1-T8共8个亚群,其中T1是Th1细胞群,在计算细胞频率的时候就有不同的方法:T1(T1细胞群)/CD4+T细胞总数、T1(T1细胞群)/T细胞总数、和T1(T1细胞群)/所有细胞总数,这也会导致结果不同。
在显著差异的细胞群中,有一类比较极端的——只有在疾病中才出现的细胞群,在TSNE或者UMAP中就是只在疾病组中出现了某个细胞群(镜像就是丢失的细胞群),而在对照组中没有见到该细胞群,所以这类疾病相关细胞群也可以叫做“(疾病)特异性细胞群”,最简单的例子就是肿瘤组织与癌旁组织(假定是完全正常的细胞)中的肿瘤细胞,虽然肿瘤组织中也有正常(上皮)细胞。这个是非常有意思的发现,所以很多研究也都能发很好的期刊。
最后,还需要考虑的一个实际问题是:由于不同单细胞测序平台、不同测序方法(比如单细胞和单细胞核测序)对组织不同细胞类型捕获的偏好性,也会导致出现假阳性和假阴性,这会导致后续通过其它实验方法验证的时候有差异。不过如果对组织中的细胞类型以及大致的细胞比例有一定了解的话,当细胞类型鉴定结果出来的时候就知道某个方法和体系对不同细胞的偏好性,即单细胞测序能否如实“照出”组织原有的细胞构成。这个问题我们在RNA-Seq数据主题的当导师只给我一个RNA-Seq数据,我是怎么设计出5个课题的(当导师只给我一个RNA-Seq数据,我是怎么设计出5个课题的?)中提到过单细胞核测序与单细胞测序在检测脑组织细胞类型上的差异。
2.2. 在疾病中功能相关的细胞群。
A主题中说的是疾病中某些细胞群的比例发生变化,另外一种变化是功能发生了改变。表现为细胞的分子特征(如表观、代谢)甚至是形态、表型的改变,当然这种功能的改变也有可能导致细胞比例的改变,比如增殖、死亡等改变是可以直接影响细胞比例的,所以如果既看到细胞比例变化,又看到对应的功能变化,是可以直接从增殖、死亡等功能和通路的改变解释比例增加和降低的,比如某个细胞群的死亡通路被活化,所以细胞比例降低了……另外功能的改变一般会体现出表达特征标志物的改变,所以也会在细胞比例上反映出来,但不是所有的功能改变都能体现在细胞比例上,而且可以通过计算细胞比例统计出来,所以还是有必要单独列出来说。
要说明这个问题需要先讲一个概念:细胞功能表型的多样性和可塑性。比如巨噬细胞的功能表型就包括且不限于吞噬作用、参与炎症反应、抗原吞噬处理呈递、免疫调节等,参与的病理过程也包括慢性炎症、纤维化、血管重构、组织修复等,所以某个功能表型的改变可以直接对应到疾病的病理特征,而功能表型的改变又可以从分子和通路上体现出来,也就说要建立的是这个调控作用轴:
疾病——病理过程——细胞群——细胞功能表型——信号通路——分子和机制
难点是:除了疾病外,其它节点一般都是多选项。比如慢阻肺(COPD)是疾病,我们关注的是纤维化的病理过程,细胞群的选择就至少有几种:肺泡巨噬细胞、中性粒细胞、成纤维细胞等;对应的细胞功能表型也不同:
在COPD的发病过程中,肺泡巨噬细胞释放炎性介质和细胞因子,参与肺组织的增生反应;
中性粒细胞在COPD的炎症反应中活化,释放弹性蛋白酶等,参与肺组织的损伤和纤维化过程;
成纤维细胞在肺损伤后的修复过程中起到关键作用,它们可以增生并转化为肌成纤维细胞,产生过量的细胞外基质(ECM),导致纤维化;
而与细胞功能表型对应的通路也不同,比如肺泡巨噬细胞释放炎性介质和细胞因子比较常见的通路有NF-κB、MAPK、JAK/STAT、TGF-β等,而成纤维细胞增生并转化为肌成纤维细胞的通路则与TGF-β、Wnt/β-Catenin、Hippo/YAP/TAZ信号通路等有关。这里我们看到TGF-β通路对不同细胞和不同功能表型中都发挥作用,但是其它几条通路的差别就比较大了。因此这种功能上的改变的细胞群也可以鉴定与疾病的某个病理特征的关系。
当疾病相关的细胞群被筛选到以后,下面就是验证该细胞群与疾病的关系,即验证以下调控轴:
外源因素-分子-信号通路或者过程-细胞群-细胞功能表型-病理过程
围绕这个调控作用轴,需要开展的工作包括:
1. 疾病相关的细胞群在疾病组织中的变化:
主要通过免疫荧光、免疫组化、流式细胞术对疾病相关的细胞群的变化进行验证,即对单细胞测序结果进行验证,需要注意的是验证是细胞群的Marker还是细胞群Marker+功能的marker,这两个分别对应2的细胞比例和功能与疾病的相关性展开。需要注意的是,如果以特定细胞群为主要创新点来申报基金项目,这部分工作是关键的预实验。
2. 疾病相关的细胞群在疾病中的功能。
这部分一般包括细胞和动物实验,需要注意的是由于很多细胞群的比例非常低,会导致直接从组织中分选细胞的量不足够支持体外的细胞实验,所以有一些研究是从细胞系、或者iPSC等诱导分化并进行基因过表达/沉默开展的实验;另外一般这种研究都需要做条件性敲除小鼠或者转基因小鼠,这一步几乎是发表高分期刊的必备步骤,当然问题就是费用、周期以及风险。
3. 细胞群对疾病功能影响的作用机制。
根据机制的研究深度,简单的作用机制明确到与疾病相关的通路、明星分子和表型就可以了,比如发现细胞群A可促进COPD的纤维化,简单一些的实验就是检测纤维化的表型和指标、深入一些就要说清楚细胞群A是如何诱导纤维化的具体机制了,一般来说细胞群A作为新细胞群就要与核心细胞群(比如巨噬细胞、成纤维细胞)的互作通讯等说明作用机制,这个就是常规的细胞间互作的研究了,如果通过配体-受体的经典模式,常做的实验包括了免疫荧光、蛋白互作等(可看推文:细胞互作到底怎么验证?南方医科大学IF 27.7 Cell子刊巨噬细胞研究思路,申请面上项目适用!)。
4. 细胞群比例和功能变化的原因。
这个部分主要解释细胞群比例和功能变化的原因,原因可以从外因和内因两个角度来考虑,外因通常与疾病的风险或者致病因素有关,比如缺氧、营养成分匮乏、炎症、机械力刺激等理化因素,而内因则与细胞内的基因表达、通路活化、代谢状态等稳态、信号转导变化有关。比如细胞群A(巨噬细胞)在疾病中比例升高,就需要讲清楚细胞群A为何增加:是向细胞群A分化的多了(比如单核细胞向巨噬细胞转化,monocyte-macrophage transition,这个可以通过拟时序分析看),增殖的多了(比如增殖性的巨噬细胞,proliferating macrophages,这个可以通过功能富集看),死亡的少了(各种死亡方式,这个可以通过功能富集看),还是其它的细胞群A被招募过来了(macrophage recruitment,这里区别与组织贮存巨噬细胞,这个也可以通过功能富集看);如果是功能发生改变,比如M2巨噬细胞增加,也可以根据基因表达和功能富集情况来挑选基因、通路和生物学过程,具体方法可以参考RNA-Seq的推文(当导师只给我一个RNA-Seq数据,我是怎么设计出5个课题的?),本文就不赘述了。
5. 靶向细胞群是否可改善疾病进展和表型。
这一点完善后整个故事就基本齐全了,特别是靶向某个细胞群可以改善疾病进展和表型,从而提升研究的转化和临床价值。
还有什么其他可以做的主题?欢迎关注后续文章!
作者
-广告-
在基金准备中需要帮助?
欢迎扫描下方二维码与我们沟通
“小张聊科研”团队郑重声明:我公司对外联络的渠道为企业微信及企业邮箱,请大家认准@解颐生物的企业微信,及@joyebio.com的企业邮箱。
看到这篇Oncogene上的miRNA研究,我感觉自己错过了N多中科院一区的文章…… “卷王”肿瘤口申国自然,这两本期刊上的代表作评审专家普遍认可!分析原因后我发现了几大特点…… 最新IF 发布,分数缩水大环境下小众IF 5+期刊一跃升至近20?这样的期刊你投吗 只靠分析公共数据现在还能发IF 6+?看完这些公开的代码,组学思路一下打开了! 更多基金经验帖,点击下方合集“上一篇”阅读