单细胞转录组实验设计如何定位到目标基因（两分组，仅4个单细胞样品）

学术 2024-11-19 15:15 广东

单细胞转录组技术因其能够揭示细胞间的异质性而越来越受到研究者的青睐。然而，由于成本问题，许多实验室在设计实验时仍然倾向于采用类似于传统bulk转录组的简化设计，即只有两组，每组两三个样本。

这种设计可以在有限的资源下最大化地利用单细胞转录组技术的优势，同时保持实验的可行性和成本效益。随着技术的进步和成本的降低，未来可能会有更多的实验室采用更大规模的单细胞转录组实验设计。所以，如果是因为条件限制，导致大家拿到了这样的单细胞数据，你会有什么很好的办法让它一定成为一个文章吗？

这里我们分享一个两分组仅4个单细胞样品就定位到目标基因的实例，是最近刷到了一个2024的文章：《Single-cell landscape identified SERPINB9 as a key player contributing to stemness and metastasis in non-seminomas》，研究的疾病是胚胎性癌（Embryonal Carcinoma, EC）是一种恶性肿瘤。

关于胚胎性癌的疾病背景

胚胎性癌（Embryonal Carcinoma, EC）是一种恶性肿瘤，属于非精原性睾丸生殖细胞肿瘤（Non-Seminomatous Testicular Germ Cell Tumors, NSGCTs）中的一种亚型：

组织学特征：

胚胎性癌的组织学特征与胚胎干细胞（Embryonic Stem Cells, ESCs）相似，表现出高度的干细胞特性，包括自我更新和多向分化潜能。

临床表现：

患者通常表现为睾丸肿块、疼痛或不适，有时伴有体重减轻、发热或夜间盗汗等全身症状。

单细胞转录组实验设计：

可以看到，数据需要申请，在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005800

HRI744207 P1 male HRS975948 sample-1 Non-seminoma
HRI744208 P2 male HRS975949 sample-2 Non-seminoma
HRI744209 P3 male HRS975950 sample-3 Non-seminoma
HRI744210 P4 male HRS975951 sample-4 Non-seminoma

这4个样品是有分组信息的：

These samples comprised one that had metastasized to retroperitoneal lymph nodes (P1)
three that displayed no metastatic behavior (P2-4)

拿到了单细胞转录组表达量矩阵后，首先是可以降维聚类分群：

降维聚类分群

起初看上面的细胞亚群比例条形图还以为是6个单细胞转录组样品，后来发现其实P1这个个体就是LNM+这个组，另外的3个病人是LNM-组别。还是4个样品，2个分组。

在上面的单细胞转录组分析中，通过降维聚类分群可以识别不同的生物学细胞亚群。文章里面的各种细胞亚群的标记基因和对应的细胞类型：

胚胎癌细胞 (EC cells)

标记基因：POU5F1（OCT4）、SOX2、NANOG
特点：这些细胞表现出类似于胚胎干细胞的高度“干性”，能够自我更新并具有多向分化潜能。

畸胎瘤细胞 (Teratoma cells)

标记基因：MGP（小鼠畸胎瘤相关蛋白）、NCAM1（神经细胞黏附分子1）、GPC3（糖蛋白3）
特点：畸胎瘤细胞能够分化成三个胚层（内胚层、中胚层、外胚层）的各种细胞类型。

髓系细胞 (Myeloid cells)

标记基因：C1QB（补体C1q亚组分B）、LYZ（溶菌酶）、CD14
特点：髓系细胞包括单核细胞、巨噬细胞、中性粒细胞等，参与先天免疫反应。

T/自然杀伤(NK)细胞 (T/NK cells)

标记基因：CD3E（CD3ε链）、CD3G（CD3γ链）、CD3D（CD3δ链）
特点：T细胞和NK细胞是适应性免疫系统的关键组成部分，参与细胞免疫反应。

B细胞/浆细胞 (B/Plasma cells)

标记基因：CD79A（B细胞受体CD79α链）、IGHM（μ重链）、JCHAIN（连接链）
特点：B细胞负责产生抗体，浆细胞是抗体分泌的终末分化细胞。

肌成纤维细胞 (Myofibroblasts)

标记基因：ACTA2（α-平滑肌肌动蛋白）、MYH9（非肌球蛋白重链9）、MYLK（肌球蛋白轻链激酶）
特点：肌成纤维细胞在组织修复和纤维化过程中起重要作用，具有平滑肌细胞和成纤维细胞的特性。

浆细胞样树突状细胞 (pDC)

标记基因：IRF7（干扰素调节因子7）、IRF8（干扰素调节因子8）、TCF4（T细胞因子4）
特点：pDC是树突状细胞的一种，主要参与抗病毒免疫反应和调节免疫耐受。

内皮细胞 (Endothelial cells)

标记基因：VWF（血管假血友病因子）、PECAM1（血小板内皮细胞黏附分子1）、CD34
特点：内皮细胞构成血管的内皮层，参与血管生成和维持血管完整性。

这些标记基因是识别和区分不同细胞亚群的关键，它们在单细胞转录组分析中用于聚类分析和细胞类型的鉴定。通过分析这些标记基因的表达模式，研究者可以深入了解样本中的细胞组成和功能状态。

然后作者也做了很多细化的分析，针对上面的胚胎癌细胞 (EC cells)以及畸胎瘤细胞 (Teratoma cells)都取子集探索，有monocle2和monocle3的拟时序分析，转录因子分享。

但是最终确定目标基因的环节，仅仅是一个差异分析。

Volcano plot showing higher expression level of SERPINB9, SUSD2 and ARFX in EC cells of primary tumor from metastatic patient.

上面的4个病人里面，其中(P2-4)是没有转移的分组，然后P1是有转移。所以在这两个分组做一个简单的差异分析即可，就定位到了SERPINB9这个目标基因：

SERPINB9这个目标基因

敲减过表达目标基因

有了目标基因，这个单细胞转录组课题就完成了一点半了，后面仍然是凑图凑实验数据环节！当然了，一个配套的转录组测序（RNA-Seq）必不可少，可以在全基因组水平上定量分析细胞中所有mRNA的表达水平。通过比较基因过表达或敲减前后的转录组数据，研究人员可以获得关于基因如何调控细胞过程的详细信息。这种方法可以揭示基因表达的变化，发现新的生物学标记，以及理解基因表达调控的复杂性。在生物学和医学研究中，对特定基因进行过表达（过表达，即让基因表达水平高于正常生理状态）或敲减（降低基因表达水平，包括完全敲除或部分抑制）是一种常用的功能性分析方法。通过这些技术，研究人员可以探究基因的功能以及它们在生物学过程或疾病发生中的作用。常见的转录组实验设计就是干扰一下目标基因，然后两分组每个组内3个样品，是因为早期转录组测序费用昂贵。如果是二十年前做一个转录组样品可能会过万的费用，十年前就千把块钱了，五年前就五六百块钱，现在就三百多块钱了。详见：转录组价格腰斩哈！（优化升级后单个样本仅399元）所以，建议大家敲减过表达前后转录组差异最好是都做一下，向CNS期刊看齐！比如2024的CELL文章：《A TCF4-dependent gene regulatory network confers resistance to immunotherapy in melanoma》

不过今天介绍的文章很明显就只是做了敲减，没有过表达目标基因。可以看到样品如下所示：https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005581

HRR1376616_f1.fastq.gz (3.35 GB) NCCIT-Ctrl-Rep1
HRR1376616_r2.fastq.gz (3.69 GB) NCCIT-Ctrl-Rep1
HRR1376617_f1.fastq.gz (2.96 GB) NCCIT-Ctrl-Rep2
HRR1376617_r2.fastq.gz (3.23 GB) NCCIT-Ctrl-Rep2
HRR1376618_f1.fastq.gz (1.95 GB) NCCIT-Ctrl-Rep3
HRR1376618_r2.fastq.gz (2.13 GB) NCCIT-Ctrl-Rep3
HRR1376619_f1.fastq.gz (2.74 GB) NCCIT-KD-Rep1
HRR1376619_r2.fastq.gz (2.94 GB) NCCIT-KD-Rep1
HRR1376620_f1.fastq.gz (2.65 GB) NCCIT-KD-Rep2
HRR1376620_r2.fastq.gz (2.89 GB) NCCIT-KD-Rep2

既然是简单的两分组，仍然是简单的差异分析和富集分析即可：

简单的差异分析和富集分析

如果该文章的两个数据都提供了表达量矩阵，我们就可以很容易验证文章的数据分析合理与否。但是文章仅仅是提供了fastq文件的网页，还需要申请，流程就很麻烦了，所以我们默认这个研究是错误的哈！

但是，如果你恰好有类似的实验设计，两分组的转录组，无论是表达量芯片，还是转录组测序，还是单细胞转录组，就可以做类似的分析啦。如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。

如果你已经熟悉了我们的课程，就联系我们报名吧~
（添加好友务必备注高校或者工作单位+姓名+马拉松，方便后续认识）

生信入门班：
学习以转录组数据为代表的组学数据分析，包括上游分析（从下机数据到表达矩阵）和下游分析（差异分析、富集分析等），无专业偏向性，顺带学习基因表达芯片。
R语言是为下游分析打基础，linux是为上游分析打基础。

数据挖掘班：
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图，专业偏向医学（部分涉及肿瘤，但医学非肿瘤专业也适配），包含机器学习算法构建分类模型与生存模型，多篇文献讲解和文章复现。全程使用R语言，不学习linux（因为不学上游分析）

详细比较如下：

报名时间

每个月滚动开课，随时可报名，如果错过了当月课程开始时间，可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班：
12月2日起，连续4个星期，每个星期5天，前三周上课时间为每天晚上7:30-10:30，第四周上课时间为每天晚上8:00-11:00（北京时间）。

数据挖掘班：
12月2日起，连续3个星期，每个星期5天，上课时间为每天晚上7:30-10:30（北京时间），具体日期见下图日历。

钉钉群线上直播互动授课（当天错过了可以看回放，一年内无限制回看），直播期间穿插练习，讲练结合，充分互动，强调在实战中进步。讲师分章节在线授课及答疑，突发情况可在线求助我们的助教团队，课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的讲师直播答疑，让没有时间听直播、后来补课的学生也可以得到直播指导；课程有重大更新时，会喊毕业学员回来补课，所以其实课程远远不止45小时/60小时，我们的诚意十足！

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247535148&idx=1&sn=d407b65f2452b9c32559c0208919634f

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

生信不好找工作可能是因为你点错了技能树

单细胞转录组实验设计如何定位到目标基因（两分组，仅4个单细胞样品）

读悉达多·穆克吉新作《细胞传》

生信入门&数据挖掘线上直播课12月班

2天线下加上5天线上的单细胞及表观调控多组学大课通通免费！

应用类脑组织和CRISPR 基因编辑和筛选技术，探索神经发育性疾病（贝勒医学院的孟祥玲课题组诚聘博士后和研究助理）

做60个10x技术的单细胞转录组样品就为了证明测序仪不重要？

无论怎么做都是错误的单细胞水平相关性分析

西北工业大学生态环境学院第十三届翱翔青年学者论坛诚邀全球英才参会

不要简单的相信作者提供的表达量矩阵

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉