VlnPlot结果及常用参数浅析

学术 2024-10-02 09:30 广东

单细胞分析中小提琴图用途

小提琴图是一种在单细胞RNA测序数据分析中常用的可视化工具，它能够展示数据分布的密度估计，并且可以用于比较多个群组的基因表达水平。

比如在单细胞分析中，在进行质控前，会使用小提琴图可视化nFeature_RNA, nCount_RNA, percent.mt，辅助我们选择合适的阈值进行质控

# Visualize QC metrics as a violin plot
VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)

在可视化Marker基因的时候，VlnPlot也是非常常用的一种方法！

之前的推文有详细整理过ncount_RNA 和nFeature_RNA辅助过滤,那这期我们一起来学习了解一下VlnPlot小提琴图可视化marker基因！

VlnPlot可视化辅助质控

虽然之前的推文有详细整理过ncount_RNA 和nFeature_RNA辅助过滤，但是好像仅仅只介绍了一下数据以及阈值选择，没有介绍一下小提琴图的结果，所以补充一下

在小提琴图结果解析：

在小提琴图中，x轴代表不同的样本或细胞群组，y轴代表数值（如基因表达水平）。每个“小提琴”描述了一个群组中数值的分布情况。
中间较宽的部分表示数据点比较集中的区域，即大多数细胞的基因数量或RNA分子总数落在这个范围内。
两端较细的部分表示数据点较少的区域，即较少的细胞具有这些数值。
通过观察小提琴图的形状和分布，可以直观地看出数据的集中趋势、离散程度和潜在的异常值。

VlnPlot可视化marker基因

使用到的还是PBMC3k的数据，走完降维聚类分群之后，使用FindAllMarkers计算所有簇的Marker基因

#计算所有簇的Marker基因，并且可视化TOP5基因
# only.pos = TRUE，只关注上调；min.pct = 0.25，一个基因至少要在25%的细胞中表达
pbmc.markers <- FindAllMarkers(pbmc, only.pos = TRUE, min.pct = 0.25,  logfc.threshold = 0.25, verbose = FALSE)
top5 = pbmc.markers %>% group_by(cluster) %>% top_n(n = 5, wt = avg_log2FC)
g = unique(top5$gene)

可视化结果浅析

首先选择一个基因进行可视化展示，并且将结果数据保存为一个变量，进行查看

p1 = VlnPlot(pbmc, features = "MS4A1")
p1

在小提琴图中，x轴代表不同的样本或细胞群组，y轴代表基因表达水平。通过观察各个群组的小提琴图形状和位置，可以了解MS4A1在不同细胞群组中的表达分布。
小提琴图中的宽度代表了各个表达水平的细胞数量。较宽的部分表示该表达水平的细胞较多，较窄或不存在的部分表示较少或没有细胞具有该表达水平。。
小提琴图的轮廓显示了数据的概率密度，而图中的点则代表细胞表达的数量，这些点有助于直观地看到数据的分布。
由图可得MS4A1基因在B细胞群组中表达量较高，而在其他细胞群组中表达量较低或不表达。

绘图数据概要

> class(p1)
[1] "patchwork" "gg"        "ggplot"

通过class查看结果数据的类型，其中"patchwork"表示p1是一个经过patchwork处理的复合图形，而"gg"和"ggplot"表示它是基于ggplot2创建的图形对象。

数据（data）：

一个包含2638行和2列的数据框架（data.frame）。用于生成小提琴图的数据集，其中每一行代表一个细胞。
可以通过View(p1[[1]][["data"]])查看，基于表达量排序之后可以看到是在B细胞中高表达

图层（layers）：

表示构成图形的图层。在ggplot2中，图层可以包括几何对象（如点、线、面等），统计变换，数据映射等。

比例（scales）：

定义了图形的比例尺，例如x轴和y轴的取值范围和断点。

导向（guides）：

表示图形的辅助元素，如图例、颜色条等。

映射（mapping）：

定义了数据如何映射到图形的美学属性上，例如颜色、形状、大小等。

主题（theme）：

定义了图形的外观和风格，如字体、背景色、轴线等。

坐标（coordinates）：

表示图形使用的坐标系统，例如笛卡尔坐标、极坐标等。

分面（facet）：

表示图形是否使用了分面，分面可以将数据的子集并排或堆叠显示。

环境（environment）：

存储了图形的计算环境，可能包含用于计算图形的变量和函数。

标签（labels）：

可能包含图形的标签信息，例如轴标题、图例标题等。

常用参数

除了导入结果数据的object以及需要绘制的features基因集，还可以修改颜色和点的大小和透明度：

cols：用于绘制不同类别的小提琴图的颜色。
pt.size：图中代表单个细胞数据点的大小。
alpha：数据点的透明度。

选择需要展示的细胞群组以及分组信息：

idents：指定要在图中包括哪些细胞群组（例如，细胞类型）。默认情况下，包括所有群组。
sort：根据被绘制属性的平均表达量对身份类别（x轴上）进行排序。你也可以传递'increasing'或'decreasing'来改变排序方向。
group.by：根据对象元数据中的不同方式对细胞进行分组（例如，orig.ident）。
split.by：对象元数据中的一个因子，用于分割图表。传递'ident'可以按细胞身份分割。
adjust：geom_violin的调整参数，用于调整小提琴图的形状。

选择用于可视化的数据——原始counts矩阵或者标准化后的data数据：

slot：从哪个槽中提取表达数据（例如 "counts" 或 "data"）。
layer：从哪个层中提取表达数据（例如 "counts" 或 "data"）。
log：是否对特征轴（通常是x轴）使用对数刻度。

默认是选择data数据进行可视化的，当需要选择counts矩阵进行可视化时，可以使用slot参数进行指定

#默认data数据可视化结果
VlnPlot(pbmc, features = c("NKG7", "PF4"))

#使用counts绘图
VlnPlot(pbmc, features = c("NKG7", "PF4"), slot = "counts", log = TRUE)

结果图美化的可选参数：

ncol：如果显示多个图表，设置列的数量。
split.plot：控制是为分割的每个组绘制多个还是单个小提琴形状。
stack：是否水平堆叠每个特征的图表。
combine：是否将图表组合成一个单一的patchworked ggplot对象。如果为FALSE，则返回一个ggplot列表。
fill.by：根据'feature'或'ident'对小提琴图进行着色。
flip：翻转图表方向（身份类别在x轴上）。

这些参数允许基于需求去自定义小提琴图的外观和展示方式，下期我们就具体来看看如何基于这些参数得到更加好看的小提琴图！

http://mp.weixin.qq.com/s?__biz=MzI1Njk4ODE0MQ==&mid=2247525623&idx=1&sn=cfb7764955e18b4bcf7f936dc104bcc5

单细胞天地

对应生信技能树论坛›研究热点›单细胞测序版块，力求全方位收集整理分享单细胞测序数据的应用，涵盖多种组学，多种疾病，发育机理，药物开发等等

最新文章

话廿七｜单细胞测序，还是要做

基于FeaturePlot参数调优及ggplot2美化

单细胞分析揭示动脉粥样硬化斑块的基因表达图谱

CODEX：单细胞转录组的下一步?

髓系免疫：为乳腺癌的转移铺路？

话廿六｜课题组来了个生物信息

FeaturePlot可视化及常用参数浅析

成人肾脏细胞异质性分析

生信入门&数据挖掘线上直播课11月班

心脏的单细胞亚群对应的标记基因

话廿五｜生物信息入门者陷阱

使用小提琴图可视化目的基因并计算显著性

系统性红斑狼疮单细胞水平的异质性

生信入门&数据挖掘线上直播课11月班

第十一届全国功能基因组学高峰论坛在广州成功召开！

肺腺癌单细胞数据集GSE189357复现(三)：基因可视化

话廿四｜生物信息的代码保有量

细胞通讯分析笔记整理

肿瘤单基因研究的若干问题之三：目的基因的筛选2.0

千呼万唤，让我们长沙线下约起

肺腺癌单细胞数据集GSE189357复现(二)：细胞注释

话廿三｜以生物信息仰观宇宙之大

小提琴图有点无图是何缘由？

6翻了！十余篇高质量研究成果展现

血浆和肿瘤组织的多组学分析揭示了三阴性乳腺癌抗PD-L1免疫治疗的核心蛋白

千呼万唤，让我们长沙线下约起

血浆和肿瘤组织的多组学分析揭示了三阴性乳腺癌抗PD-L1免疫治疗的核心蛋白

我可以回答你单细胞的任何分析，只需要你完成一个小事！

话廿二｜生物信息，再不AI就老了

基于VlnPlot参数及ggplot2美化小提琴图

小鼠胰腺导管腺癌进展过程中的细胞异质性

肺腺癌单细胞数据集GSE189357复现(一)：数据下载整理、降维聚类与分群

生信入门&数据挖掘线上直播课10月班（国庆加量不加价！）

不能要求五年前的单细胞文章按照现在的知识体系做分析

为什么执着于复现出来张泽民大佬的单细胞分群呢

廿一｜生物信息“农转非”

VlnPlot结果及常用参数浅析

harmony整合“失败”才是正常的

小鼠脊髓损伤后细胞异质性和相互作用-2

康奈尔医学院王光煜课题组的计算生物人才招聘（博士后，讲师，研究助理教授）

从小白到成功发表生信相关的论文

话廿 | 生物信息方向产品经理

热图联动点图展示Marker基因

小鼠脊髓损伤后细胞异质性和相互作用-1

用单细胞公共数据库给组织再生研究开个头！！！

肿瘤单基因研究的若干问题之三：目的基因的筛选1.0

生信入门&数据挖掘线上直播课10月班

话十九 | 单细胞多组学应用T2T参考基因组的时机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉