首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

手把手教学｜单细胞分析基础流程(三)：认识数据集结构

文摘科学 2024-12-10 07:03 广东

背景

上次的笔记中，我们详细介绍了Seurat 的标准流程还有一些可视化的方法。

其实我个人一直以来使用的都是V4版本，不过好在V4和V5在数据结构方面的变动并不显著，所以前面的两篇笔记是按照更新后的V5版本来写的。因此，已经熟悉V4的小伙伴们也不用担心，我在第一篇笔记里面已经给出把V5降成V4的办法，直接照搬就行。

在Seurat处理数据集期间的数据结构变化之前，我们要先学习一些基础知识。因为读取数据、认识数据结构、指定变量是所有数据分析的基础。

01 基础数据类型

数据集是由数据构成的一个矩形数组，通常行表示观测（例如用于表示年龄大小的数字、用于表示性别的男女），列表示变量（例如年龄、性别）。

R语言中有许多用于储存数据的结构，包括向量（vector）、矩阵（matrix）、数组（array）、数据框（data frame）和列表（list）。

我们来尝试一下创建不同的数据结构：

1. 向量

R语言中最基础的数据格式，向量。向量是用于储存数值型、字符型、逻辑型数据的一维的数组。使用函数c( )可以创建向量，比如：

用过Rstudio的大家都知道，Rstudio界面分为四部分，我们这次主要用到的是它的右上角这一块内容，这里会标一个Environment的字样，这个框里面显示的就是当前R会话中加载的数据、变量和函数等信息，并且在运行的过程中这个信息会不断地变换。

运行以后在environment当中就会出现以下被定义好的向量。其中a是数值型向量（number），b是字符型向量（character），c则是逻辑型向量（logic），d是矩阵，e是复数，f是列表。

使用class函数我们可以直接查看数据的类型：

（比起向量，其实还有一种更加基础的数据格式，即标量。标量是只含有一个元素的向量，用于储存常量，例如f <- 3、h <- TRUE。）

2. 矩阵

矩阵是一个二维的数组，可以通过函数matrix( )创建矩阵，在这里我用R语言实战中的代码来进行演示，首先来看看标准格式：

vector表示矩阵中的变量；nrow和ncol用来指定行和列的数目；dimnames是可选项，可以用来通过字符型变量来给行和列命名；byrow同样是可选项，用来选择是按行填充(byrow=TRUE) 还是按列填充(byrow=TRUE) 。

接下来我们来看一下创建矩阵的实例：

3. 数组

数组的内容和矩阵很像，但是维度可以大于2。数组可以通过array函数创建，基本格式如下：

vector表示数组中的变量；dimensions是一个数值型向量，表示每个维度的最大值；dimnames是可选项，与矩阵类似，表示每个维度的命名。

接下来是创建数组的实例：

4. 数据框

一个矩阵、数组只能储存一种类型的变量。由于数据框可以同时包含多种类型（数值型、字符型等）的变量，它将是R语言中最常见的数据结构。可以用函数data.frame( )创建，基本格式如下：

其中col1、col2、col3表示数据框的第一二三列，可以是任何类型的变量（字符型、数值型、逻辑型）。

接下来是创建数据框的实例：

5. 列表

列表是作为复杂的一种数据类型，可以储存刚才讲到的任何一种数据结构。如下：

先简单认识一下R语言的基础知识、数据类型，有了上面的这些知识，我们就可以去回顾前两篇笔记里的PBMC数据了。

注意，以上内容用到的大部分代码都可以在《R语言实战》一书的作者所创建的网站www.manning.com上找到。

02 加载数据

我们先参照之前篇笔记的代码把数据加载好，然后创建Seurat对象。

加载了10X的矩阵数据后，可以看到，整个数据大小是29.9M。这里对它的描述是Large dgCMatrix，是R中用于存储和操作大型矩阵的数据结构。

可以看到，pbmc.data一共包含6个部分（我们称之为插槽），分别是：i，p，Dim，Dimnames，x 和 factors。

03 认识数据

i: 这个 i 可以使用pbmc.data@i来调用查看，因为全部展示在文章里面太占位置了，因此我们使用head只展示前100个元素。

根据我们的第一篇笔记，就可以知道这个i代表的是所有细胞当中有表达的基因的数量。

p: p 可以使用pbmc.data@p调用，但是同样只展示前100个。

似乎并不能看出来它代表的是什么信息，虽然已知的是我们的数据集一共有2700个细胞，加上这里还有一个0，正好是2701个元素。

再来看看最后的100个元素确认一下。

可以看到最后一个数值刚好是2286884，即所有细胞当中有表达的基因的数量。那么从0开始，到2286884结束，这个p代表的就是每个细胞中表达的基因数逐个累加而形成的数值。

Dim: 通过pbmc.data@Dim调用，可以看到这个列表信息很简单，就两个元素32738和2700，一个基因数，一个细胞数。

Dimnames: 可通过pbmc.data@Dimnames调用。environment里面对它的描述是“List of 2”，也就是两个列表。

可以看出这两个列表分别是基因信息列表和代表细胞的barcodes信息列表。

x: 通过pbmc.data@x调用。里面存储的是代表每个基因表达量的UMI计数。

factors：也是通过pbmc.data@factors来调用，但之前从environment里面已经能看出来，它现在还只是一个空的list。

@factors插槽是用来存储与矩阵行或列相关的分类变量的。例如，如果我们有一个病人的年龄或性别这样的信息，并且想把这些信息与矩阵的行或列联系起来，我们可以用因子（factors）来表示这些分类变量。

但现在@factors 插槽显示list() 表示这个列表是空的，也就是说当前没有这样的信息被存储在这个矩阵中，这是正常的。

到此为止，该外周血单个核细胞(PBMC)数据集的结构信息就讲完了。我们下一次就来看看在对这个数据集创建Seurat以后，那些数据分析的标准流程会对数据结构产生什么样的影响吧。

本文作者是"Algernon"同学，在获得授权后，实验老司机将本文发表于公众号。

文稿：Algernon

校对：煲仔饭

参考资料：

https://images.app.goo.gl/TYWBEMsxaTTZMwHn8

往期文章推荐

详解单细胞分析基础流程（一）：标准分析

手把手教学｜单细胞分析基础流程（二）：Seurat数据可视化

经验总结｜生物信息学的学习方法

实验老司机分享生命科学实验知识，通过短视频、在线讲座、直播演示帮助新手实验操作者完成从0到1的入门学习。

exdrive.cn

公众号、视频号、知乎、Bilibili

抖音、西瓜、今日头条、小红书

内容同步

实验老司机

关注老司机，实验不死机。实验老司机分享生命科学实验知识，通过短视频、在线讲座、直播演示帮助新手实验操作者完成从0到1的入门学习。

最新文章

学术技能｜如何在实验文章中描述图表数据

手把手教学｜基因沉默实验：siRNA设计和转染

手把手教学｜基因沉默实验：siRNA转染效率验证

实验科普｜数字PCR（dPCR）是什么？（下）：实验应用、近年研究方向和热点

手把手教学｜流式细胞术如何检测细胞周期和凋亡

在线讲座预告｜HPLC高效液相色谱基础能力培训：色谱基础理论，12月17日开讲！

手把手教学｜质粒载体构建的实验步骤及经验分享

实验科普｜数字PCR（dPCR）是什么？（上）：概念、发展历史、实验原理

讲座回放｜CRISPR基因编辑在细胞治疗中的应用

手把手教学｜小鼠骨髓细胞染色体标本制作实验

实验答疑｜悬浮细胞有可能永生化吗？流式能否检测？

学术技能｜英文论文怎么写？学术英文的基本守则！

手把手教学｜Bio-Rad T100 PCR仪的操作方法

手把手教学｜同源重组法质粒构建的实验步骤及注意事项

讲座回放｜靶点解惑系列讲座——ELISA实验宝典

手把手教学｜如何做好cck-8实验

讲座精选｜qPCR仪器的使用细节

在线讲座预告｜CRISPR基因编辑在细胞治疗中的应用，本周五开讲！

实验文章汇总：基因编辑专题

实验科普｜什么是类器官技术？

手把手教学｜单细胞分析基础流程(三)：认识数据集结构

手把手教学｜单细胞分析基础流程（四）：认识Seurat V5对象数据结构

实验答疑｜培养细胞必须要用封口膜封口吗？

年末盘点｜2024年度分子生物学技术创新进展

经验总结｜细胞培养过程中如何避免微生物污染？

在线讲座预告｜靶点解惑系列讲座——ELISA实验宝典，12月10日开讲！

实验解析｜ELISA实验经验总结

实验科普｜什么是流式细胞术？

讲座回放｜靶点解惑系列讲座——WB翻译后修饰专题

手把手教学｜免疫共沉淀（CO-IP）的实验操作及注意事项

实验员的计算器，上线！

经验总结｜文章撰写的基本方法和经验分享

实验解析｜SDS-PAGE电泳常见问题解答

手把手教学｜荧光定量PCR全流程实验步骤和注意事项

WB讲座精选｜四代WB显影成像技术优略势一览

实验解析｜外泌体RNA提取的方法介绍和实验流程

经验总结｜移液器的使用技巧

11月实验文章大盘点！看看这些文章能否解决你的实验难题！

实验解析｜分子克隆实验的注意事项和经验分享

在线讲座预告｜靶点解惑系列讲座——WB翻译后修饰专题，本周四开讲！

手把手教学｜ImageJ软件在免疫荧光中的应用

WB讲座精选｜WB条带不理想，常见问题分析：其他条带问题

原来我们的读者“长这样”——第一次读者调研结果公布

实验解析｜流式细胞术的多色荧光搭配原则及注意事项

实验遇到困难？告诉我们！

讲座精选｜小鼠肝实质细胞的简介

注册即送好礼，100%获奖！只要注册，我们就有礼相送！

手把手教学｜详解单细胞分析基础流程（一）：标准分析

手把手教学｜单细胞分析基础流程（二）：Seurat数据可视化

经验总结｜实验任务繁重，科研人如何管理时间？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉