生信数据分析的底层确实是统计学

学术 2024-10-15 16:45 广东

生信数据分析其实是学不完的，尤其是单细胞领域，五花八门，我以为在2018到2022我写了4个专辑就可以“退休了”：

没想到的说2024我又创作了50+的单细胞笔记，实在是求助我的小伙伴们实在是领域太分散了，而且确实是单细胞数据分析方向总会涌现出来各种看起来是奇奇怪怪的分析，但其实就是统计学底层小细节罢了。

比如这次粉丝提问的又是张泽民课题组新鲜出炉的（2024年8月）的单细胞数据挖掘文章：《Integrative single-cell analysis of human colorectal cancer reveals patient stratification with distinct immune evasion mechanisms》，如下所示有一个基因交集的可视化。正常情况下，交集应该是韦恩图，但是作者把一个简简单单交集玩出花来了。其中交集的左边是 mapped genes of CRC risk loci 是来源于前人的研究，下载一个基因列表即可。然后交集的另外一部分就是单细胞降维聚类分群之后的每个亚群在癌症和癌旁的差异基因列表。如下所示：

每个亚群在癌症和癌旁的差异基因列表

比如，在正文里面，研究者们单独可视化了这个排名靠前的COL4A2基因，如下所示很明显的在肿瘤里面是高表达的，相对于癌旁组织来说：

单独可视化了这个排名靠前的COL4A2基因

这个COL4A2基因首先应该是 mapped genes of CRC risk loci 是来源于前人的研究，然后它在多个单细胞亚群里面都表现出来了很明显的在肿瘤里面是高表达，相对于癌旁组织来说！

如果仅仅是交集，应该是韦恩图，统计一下各个单细胞亚群交集基因数量即可，发现成纤维细胞（Fibroblasts）和内皮细胞（Endothelial Cells, ECs） 的交集排名靠前。不应该是出现上面的散点图，需要理解一些统计学概念：

遗传调控（Genetic Regulations）：指的是基因表达和功能受到其他分子（如转录因子、microRNA等）调控的过程。
结直肠癌风险位点（CRC Risk Loci）：是指与结直肠癌发生风险相关的基因组区域。
映射基因（Mapped Genes）：是指在特定的遗传风险位点上找到的基因，这些基因可能与疾病风险相关。
P值分布（P-value Distribution）：P值是统计学中用来衡量观察到的数据与假设之间的差异是否具有统计学意义的一个指标。在这段描述中，研究者比较了肿瘤组织和癌旁组织中不同细胞类型的基因表达差异，并计算了相应的P值。
预期的均匀分布（Expected Uniform Distribution）：是指如果基因表达差异是随机的，那么P值应该在0到1之间均匀分布。
Lambda统计量（Lambda Statistic）：这是一种用于检测偏离预期分布的统计量。在这里，它被用来评估实际观察到的P值分布与预期的均匀分布之间的偏差程度。
膨胀的偏差（Inflated Deviations）：指的是实际观察到的P值分布与预期的均匀分布相比，出现了较大的偏差，这可能表明某些细胞类型的基因表达差异不是随机的，而是受到了特定的遗传调控。

其实不同单细胞亚群是否有这些 mapped genes of CRC risk loci 的差异情况，应该是下面的热图展示：

同样的，也可以看到这个COL4A2基因在内皮细胞和成纤维，都是统计学上调基因啦，但是这个并不足矣让它从全部的mapped genes of CRC risk loci里面脱颖而出，因为出现在多个单细胞亚群都表现出差异的基因有很多，需要一个统计学指标：

A larger deviation, as determined by a larger lambda statistic, indicates a stronger transcriptional alteration in tumors for a certain cell type

如果看文章里面的方法学描述，其实就会发现，描述的确实是过于简单：

描述的确实是过于简单

值得注意的是，如果做这样的单细胞亚群在不同分组的大量细胞之间的差异分析，是需要抹去细胞数量这个变量的。这段描述涉及到的是统计学中的一些概念，用于研究特定细胞类型在肿瘤和癌旁组织中的基因表达差异。下面是对这些概念的解释：

差异表达分析（Differential Expression Analysis）：这是一种统计方法，用于识别在不同条件下（如肿瘤组织和癌旁组织）表达水平有显著差异的基因。
表达阈值（>10% of cells）：研究者只关注在肿瘤或癌旁组织中表达水平超过10%的细胞的基因。这是一个筛选标准，用于确保分析的基因在至少10%的细胞中有表达。
风险基因（Risk Genes）：这里指的是那些位于结直肠癌风险位点上的基因，它们可能与疾病风险相关。
P值（P values）：在差异表达分析中，P值用于衡量观察到的基因表达差异是否具有统计学意义。P值越小，表示基因表达差异越显著。
分位数-分位数图（Quantile–Quantile Plot）：这是一种图形工具，用于比较两个分布的形状。在这里，它被用来展示实际观察到的P值分布与预期的均匀分布之间的偏差。
预期的均匀分布：如果基因表达差异是完全随机的，那么P值应该在0到1之间均匀分布。
偏差（Deviation）：分位数-分位数图上的偏差表示实际观察到的P值分布与预期的均匀分布之间的差异。
Lambda统计量（Lambda Statistic）：这是一个用于衡量P值分布偏差的统计量。Lambda值越大，表示偏差越大，即基因表达差异越显著。
转录调控（Transcriptional Alteration）：指的是基因表达水平的变化，这可能是由于遗传或环境因素导致的。

总的来说，这段描述是关于如何使用统计学方法来分析特定细胞类型在肿瘤和癌旁组织中的基因表达差异。通过差异表达分析，研究者可以识别出表达水平有显著差异的基因，并通过分位数-分位数图和Lambda统计量来评估这些差异的显著性。这些分析有助于理解肿瘤发生过程中不同细胞类型的转录调控变化。

统计学重要吗

其实上面的单细胞转录组表达量矩阵的降维聚类分群，然后是细胞亚群的生物学命名，然后是差异分析，都是有整理好的流程，基本上可以无脑运行的，看起来统计学其实并不重要。

然后呢，如果是gwas记录的crc的1000个基因去跟各个亚群取交集，似乎是也不需要统计学。但是交集后仍然是有一两百个基因，如果继续从这里面定位到最关键的呢，其实粗浅的可以直接看变化倍数或者表达百分比差异即可。并不一定要看文章那样的搞一个统计学概念。

统计学是一块的难啃的骨头，所以我们整理了技能树往年笔记，以及一些优秀同行的分享分享给大家，每一篇都值得细细品读！

如果不学统计学，那么你就不可能看懂下面这图，生物信息学领域耳熟能详的生存分析，主成分分析，差异分析你都无法理解。

首先是statquest学习小组长笔记

StatQuest生物统计学专题 - 基础概念

StatQuest生物统计学专题 - p值

StatQuest生物统计学专题 - 生物重复和技术重复

StatQuest生物统计学专题 - RPKM,FPKM,TPM

StatQuest生物统计学专题 - library normalization进阶之DESeq2的标准化方法

StatQuest生物统计学专题 - library normalization进阶之edgeR的标准化方法

StatQuest生物统计学 - Independent Filtering

StatQuest生物统计学 - FDR及Benjamini-Hochberg方法

StatQuest生物统计学 - 拟合基础

StatQuest生物统计学 - 线性拟合的R2和p值

StatQuest生物统计学专题 - 分位数及其应用

StatQuest生物统计学专题 - 极大似然估计

StatQuest生物统计学专题 - PCA

StatQuest生物统计学专题 - PCA的奇异值分解过程

StatQuest生物统计学专题 - LDA

StatQuest生物统计学专题 - MDS

StatQuest生物统计学专题 - tSNE的基础概念

StatQuest生物统计学专题 - 聚类及其算法(1)

StatQuest生物统计学专题 - 聚类及其算法(2)

StatQuest生物统计学专题 - K近邻算法

StatQuest生物统计学专题 - 决策树(1)

StatQuest生物统计学专题 - 决策树(2)

StatQuest生物统计学专题 - 随机森林(1) 构建与评价

StatQuest生物统计学专题 - 随机森林(2) R实例

待续，持续更新

单细胞结合GWAS

其实就跟结合生存分析是一回事，因为有gwas数据库资源提供注释信息和基因列表，因为很容易去搜索拿到各个疾病的GWAS相关基因，然后就可以去对应疾病的单细胞转录组数据降维聚类分群后的结果里面看看是否有富集，比如：2020的《NATURE》文章：《Cells of the human intestinal tract mapped across space and time》，就是做了人类的正常肠道相关组织的单细胞图谱后，就顺理成章的看看 Cell-type enrichment analysis for IBD-GWAS genes，其实还可以看看肠癌相关的GWAS基因是否有富集。（或者做一个基因集的打分！！！）

写在文末

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。而且下周六日我们在广州线上授课哦：千呼万唤，让我们长沙线下约起

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247534465&idx=1&sn=07212c2dee04111e497e678baee1b6ff

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

学习笔记：slurm作业调度系统

大佬带你回顾人类肿瘤 scRNA-seq 的第一个十年

每个生信小白都应该避坑的小细节！

基因影像组学方向的教职/研究岗/博后都可以聊聊看

卷赢科研服务市场的金钥匙-云平台

生信数据分析的底层确实是统计学

单细胞注释记不住marker怎么办--让AI帮你解释差异基因

做生物信息学就应该去国家生物信息中心（中国科学院北京基因组研究所）

千呼万唤，让我们长沙线下约起

ReactomePA安装及报错解决

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉