生信技能树单细胞分析流程基础直播课(曾老师版本)细节学习

文摘 2024-12-01 18:59 广东

最近重新回溯了一下曾老师版本的单细胞教学视频课—肝癌单细胞数据集里面的NK多吗(视频号：2023年8月9日) ，降维聚类分群环节细节满满非常值得新手们学习~

一、这个肝癌单细胞数据集居然真的有这么多NK细胞亚群啊！！(生信技能树推文：2023年8月9日)

单细胞+bulk分析常规思路(最最基本的)：

找到数据集，降维聚类分群后，拿到基因列表后，去TCGA建模
TCGA建模然后拿到模型基因去单细胞转录组数据集中看是否会有特殊的表现

代码分析流程

1. 下载数据导入R之后先整理数据：把数据整理成能够分析的格式。

1.1 重命名：10X数据一般会把能够代表样本信息的名称提取出来作为样本文件夹的名称。比如曾老师代码中就会提取HCC名称而非GSM号。

1.2 备份数据/重设数据位置：使用的核心代码就是lapply+自定义的函数+file.copy ，把不同样本下的feature，matrix，barcodes文件归类放置到每一个样本文件夹下面。当然不同数据的读取也存在不同方法可以看看一下推文: 常见不同单细胞数据类型的读取及Seurat对象创建方法整理(单多样本/10X/h5/txt/csv/tsv)最终会在样本文件夹下边有三个文件

2. 正式开始分析

2.1 可以考虑整理一个R包的文件，这样就不要在每次分析的时候逐步加载，只需要在刚开始时候source一下R包文件就可以。

2.2 建议在分析的时候设定输出运行信息，比如很多步骤曾老师都会增加print()函数，便于分析者直观的看到分析的样本信息。2.3 过滤步骤，目前关于线粒体，核糖体，红细胞的比例参数说法很多，但是曾老师认为只要后面降维聚类分群没有出现问题，那么过滤步骤只要不那么离谱就都可以，也就是这一步其实没有那么严格！注：附上曾老师的过滤标准。当然笔者认为在这里需要思考一下分析的组织是什么 ，如果是特殊组织的那可能就需要谨慎的设定过滤比例。

3.联合生物标志物的点图和UMAP图去思考生物学命名

命名的时候应该是先粗后细，一开始可以选择较小的分辨率，先按照粗略的细胞群进行分组后再进行细分。

3.1 选择的分辨率是0.1，从marker看0/1/3最可能是NK，2是T细胞(主要可能是CD8T细胞)，5是浆细胞，6是B细胞，7是增殖的NK，8是髓系细胞，9是干细胞。

3.2 细胞亚群的认定流程：第一：是否是细胞群所特有的，比如T细胞的CD3, B细胞的MS4A1(CD20)，NK细胞的KLRB1，髓系细胞的C1QA/C1QB，肝细胞的APOC3。第二：需要考虑marker的平均表达量高低，一般会倾向关注表达量很高的marker。第三：若两种分属不同细胞亚群的marker在同一个细胞簇中出现时，需要考虑是否是特殊的细胞群。

3.3 如果细胞群出现特殊情况，比如在这个图中有那么多个簇都属于NK细胞的时候，需要考虑是否是存在问题，这个时候需要回溯多个图表进行综合考量。比如需要回溯nFeature，nCount图看看这个簇的值是否异常(包括线粒体，核糖体和血红蛋白的值)，也需要看看FindAllmaker/COSG差异分析结果判断一下是否符合NK细胞的特征，同时一定要查阅一下文献看看是否有高分文献进行过类型细胞的报道。如果确认了上述情况都没有问题，那咱们也不要犹豫，这就是真实的结果~ 后续就可以继续研究为什么这批样本中NK细胞的比例如此之高。不同细胞簇的高表达marker差异分析结果：FindAllmaker/COSG差异分析3.4 一旦初步分群结束之后，同时也需要仔细观察一下UMAP图，图中有一些细节可以帮助我们发现错误。比如推文：仅使用SingleR做单细胞亚群的生物学注释都拒稿吧！。图中T和B细胞这个区域，似乎没有分的那么开，这个时候就需要考虑是否存在问题！

同一批数据，上图使用的是患者作为orig.ident进行降维聚类分群，之后曾老师让我尝试使用细分的样本(这个数据集中同一个患者取了多个部位的样本)进行降维聚类分群，从下图的结果可以看出T/B细胞之间的界限就比较清晰了！这也提示我们在降维聚类分群环节时候需要考虑按什么参数进行分析，是患者？是细分样本？等，从该结果来看，笔者认为在初始分析的时候如果有细分样本这个标签那就应该设定细分的样本为orig.ident进行降维聚类分群。3.5 命名环节：结合marker+umap结果，比如再回到上面的“这个肝癌单细胞数据集居然真的有这么多NK细胞亚群啊！！”推文，里面存在多个分的比较开的NK，那么此时就可以选择这些不同的NK细胞进行分别命名，比如这里的0群可以命名为经典NK，。如果后续还需要进一步分析NK细胞，那么就可以聚焦到NK细胞进行进一步的细分。当然如果细胞在粗分的时候分不开的话也不用强求，先粗略的归类即可，后面再单独细分。同时在命名这个环节之前，还建议使用分组气泡图看一看不同样本中每个簇的细胞数目情况。

二、单个癌症的成纤维细胞亚群跟泛癌差异很大吗(生信技能树推文：2023年8月8日)

1.提取子集

在提取子集之前应当先了解一下分群的结果是否符合常规生物学情况 ，其中就包括了每种细胞亚群的数量和比例。除了气泡图还可以使用如下的代码，table(sce.all.intcelltype)/length(sce.all.int$celltype)。拿到了这个比例数据就可以去网上找一找各大测序公司给出的数据或者高分文章中的情况，为后续分析之前先做一个了解。

其他细节：

建议在每一个项目文件夹下面都放置一个Rproj文件，方便切换分析。
样本多的时候建议用代码处理，如果样本少的时候直接手动改名处理一些附加文件会更快。

参考资料：

生信技能树：https://mp.weixin.qq.com/s/HPkhAo1r7PT4zJW1AOjPvA https://mp.weixin.qq.com/s/e5QIGKrQhtRjRLzKT56V4A

致谢：感谢曾老师以及生信技能树团队全体成员。

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

冷热肿瘤还能这么玩？！！！来看看101机器学习算法组合如何唱响冰与火之歌~（附上文中蝴蝶图的复现代码，全文可复现可借鉴！）

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第三部分-细胞互作/stripe/ATAC)

综述学习|癌症中的自噬及其相关信号通路|文献5分钟

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第二部分-inferCNV/拟时序/RNA速率)

江西省肿瘤医院/国家卫生健康委鼻咽癌个体化诊疗重点实验室招聘生物信息学人才公告

医学单细胞及表观多组学技术应用线上公开课(武汉大学/菲沙基因)整理总结及学习(第一部分-Cellchat)

RcisTarget转录因子分析学习

依旧是热点！机械力感受+线粒体再发Nature大子刊！

生信技能树单细胞分析流程基础直播课(曾老师版本)细节学习

Robust Rank Aggregation(RRA)分析学习

sra-tools安装流程再学习(包含镜像设置)

CNCB(国家生物信息中心)数据下载流程学习(Anaconda/Aspera/Edge turbo）

临床预测模型—基于dcurves包的临床决策曲线(DCA)绘制学习

临床预测模型—C指数(C-index)和时间ROC(timeROC)曲线绘制学习

Chip-seq上游分析流程学习(四)

Chip-seq上游分析流程学习(三)

Chip-seq上游分析流程学习(二)

Chip-seq上游分析流程学习(一)

ChatGPT使用技巧(Prompt/翻译/润色/提取关键信息)学习

上海交通大学杨晨博士分享其研究内容及生信学习经验的整理学习

温州医科大学最新单细胞联合普通转录组文章，5张图拿下二区TOP，可复现可借鉴！

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉