有手就会的单细胞转录组 | 第1期.数据导入

3）我们打开matrix.mtx.gz可以看到每个基因的表达量的原始值。如果在R里面读入matrix可以看到是稀疏矩阵（一般是为了减少文件大小），转化为dense matrix或者直接打开可以看到cellranger的版本，以及对应一共有的基因数（55357行）、细胞数（8229列）和非零值（20154188）。而下方的数字例如第一个代表：第165行和第一列的值为2。导入是将单细胞RNA测序（scRNA-seq）下机数据经过 Cell Ranger 流程处理后，将结果文件加载到 R 环境中，以便进行后续的数据分析和可视化。Cell Ranger 是 10X Genomics 提供的标准分析流程，其输出文件通常包括：

②相关R包工作原理

1）Read10X：目的就是读入10X的cellranger后的三个文件，形成count矩阵。

Read10X(
  data.dir,
  gene.column = 2,
  cell.column = 1,
  unique.features = TRUE,
  strip.suffix = FALSE
)

data.dir就是上述三个文件的路径；

“gene.column = 2”就是会对应feature文件的第二列作为基因名字；

“cell.column = 1”会对应barcode文件的第一列为细胞名字；

“unique.features = TRUE”是使基因名唯一，如果有重复的会自动添加后缀以区分，

“strip.suffix = FALSE” 是否移除barcodes中的“-1”后缀。

当整理好对应文件为上述三个文件的gz压缩格式时，只用给对应的data.dir就可。

2）CreateSeuratObject：目的就是最终在R中形成Seruat对象

CreateSeuratObject(
  counts,
  assay = "RNA",
  names.field = 1,
  names.delim = "_",
  meta.data = NULL,
  project = "CreateSeuratObject",
  min.cells = 0,
  min.features = 0
)

counts：矩阵就是Read10X得到的数据；

assay：指定初始的 assay 名称，默认为 "RNA"

meta.data：这个指额外的细胞元数据，通常是一个数据框，注意元数据的行名需要与 counts 矩阵的列名（细胞名称）匹配。

min.cells：仅保留在至少在多少个细胞中表达的基因。

例如min.cells = 3会过滤掉在少于3个细胞中表达的基因。

min.features：仅保留检测到至少多少个基因的细胞。

例如min.features = 200会过滤掉检测到少于200个基因的细胞。

③其他读入方式

如果上述文件格式不标准可以对应去修改，对于txt/csv/tsv 文件、HDF5文件的读入未来我们将会继续分享。

二、实践

数据来源：

我们接下来要使用的所有单细胞转录组分析均用以下自行构建的示例数据：

链接: https://pan.baidu.com/s/1q3dQXmmFmaOeTLLJ_Gjm6Q 提取码: 8yhh

可以看到一共有17个样本（4个case和13个control），已经整理好对应样本的filtered_feature_bc_matrix。里面均整理好了三个文件。

①R包环境

library(Seurat)
library(tidyverse)

②文件位置

# 设置基础路径
base_path <- " ../outputs"
# 获取所有子文件夹
folders <- list.dirs(base_path, full.names = FALSE, recursive = FALSE)

③读入数据

# 创建一个列表来存储所有的Seurat对象seurat_list <- list()
# 循环读取每个文件夹
for(folder in folders) {
  # 构建完整的路径
  full_path <- file.path(base_path, folder, "filtered_feature_bc_matrix")
  # 使用文件夹名称作为样本名
  sample_name <- folder
  # 读取数据并创建Seurat对象
  tryCatch({
    data <- Read10X(data.dir = full_path)
    seurat_obj <- CreateSeuratObject(counts = data, project = sample_name, min.cells = 3, min.features = 200)
    # 将对象存储在列表中    
    seurat_list[[sample_name]] <- seurat_obj
    # 打印进度信息
    cat(sprintf("Successfully processed %s\n", folder))
  }, error = function(e) {
    cat(sprintf("Error processing %s: %s\n", folder, e$message))
  })
}

最终我们可以看到17个样本已经成功读入R中了！

Summary：

总结一下：

单细胞转录组就是将单细胞RNA测序（scRNA-seq）下机数据经过Cell Ranger 流程处理后，将结果文件加载到 R 环境中，以便进行后续的数据分析和可视化。

我们使用R的原因包括其简洁高效、有广泛的应用和支持、可视化能力强并可与其他程序兼容。

我们介绍了在实操过程中的Read10X和CreatSeuratObject两个函数，并用示例数据进行了演示

后期我们将继续带着大家一起从浅入深地接触、理解、掌握单细胞转录学！

这就是本期的全部内容啦，你学会了吗？后续我们将继续开始为大家分享单细胞转录组学相关内容。大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话”栏目中提出。希望我们能一起成长，共同进步，让医学科研有迹可循！

/ / /

欢迎大家加入R语言与组学互助交流群！

写在最后

“观科研”（点击进一步了解我们吧）是由一群北京协和医学院（清华大学医学部）的博士开创的公众号，初心是让医学科研有迹可循，帮助一线的医学科研人员更快地成长，希望大家支持与关注！

如果大家对分享医学科研知识感兴趣，特别欢迎加入我们，期待与您的相遇相识相知，也非常欢迎大家自主投稿，如果您有需要分享的内容或对我们有任何建议，可通过后台留言、公众号菜单栏“更多—读者的话”栏目（进一步了解）或发送邮件至mascu_forever@163.com与我们交流并留下个人联系方式，我们会及时与您联系。

如果您觉得我们长期的干货推送对您的科研工作有所帮助，可以在合适的机会致谢（包括但不限于SCI论文、毕业论文等），格式如下:

The authors thank the support of Skill Learning from Kaixin Doctor and MASCU (Medical Association with Science, Creativity, and Unity), Inc, Shenzhen, China (mascu_forever@163.com).

【大家的支持，是我们持续更新的动力！】

Pay attention!

微信公众号的推送规则发生改变（不再按照时间顺序来显示），如果没有将“观科研”设置为星标，你就可能错失里面的精彩推送。

点击“在看”，可参与讨论哦！

图文：直观

审核：定观

编辑：直观

责编：静观

观科研

让医学科研有迹可循

最新文章

有手就会的单细胞转录组 | 第1期.数据导入

硬核生物信息学系列汇总

科研配色｜第36期. 冬日费尔岛=咖啡+抹茶+牛奶

硬核科研工具系列汇总

小白也能看懂的Bulk RNA-seq思路 | 第3期. 还是太全面了！转录组测序寻找预后相关细胞类型和靶基因+揭示下游分子通路

硬核临床科研系列汇总

硬核基础科研系列汇总

硬核生物信息学系列汇总

硬核公共数据库系列汇总

硬核科研工具系列汇总

代谢组思路 | 第4期. 代谢组学联合转录组学，助力代谢重编程

硬核生物信息学系列汇总

统计推断与作图｜第5期. 数据不满足正态分布？秩和检验上大分！

硬核临床科研系列汇总

SCI作图 | 第12期. AI画笔，快速上手

硬核科研工具系列汇总

EHJ | 超重和肥胖与杂合子家族性高胆固醇血症的心血管风险相关性：EAS FHSC注册研究

硬核临床科研系列汇总

抬头看天 | 耽误您3分钟时间，一起看看顶刊都发什么研究？

硬核基础科研系列汇总

Nat Cardiovasc Res丨从机械硬度到糖酵解再到ROS，小小巨噬细胞竟在MI后有如此多的表型改变！

硬核基础科研系列汇总

硬核临床科研系列汇总

硬核基础科研系列汇总

硬核生物信息学系列汇总

硬核公共数据库系列汇总

硬核科研工具系列汇总

UK Biobank｜第5期.《Age and Ageing》综合量化全新指标身体虚弱

硬核临床科研系列汇总

科研配色｜第35期. 柱状图的九九八十一变

硬核科研工具系列汇总

小白也能看懂的Bulk RNA-seq思路 | 第2期. 不知道研究哪个分子哪条通路？转录组测序来帮你！

线上沙龙｜如何利用生信数据库开展遗传病的基础科研和临床前研究

硬核生物信息学系列汇总

基础科研思路｜第3期. 2025年了，超快阅读文献的方法你还不知道吗

科研期刊｜第19期. 这本新的Nature子刊，你了解过吗？

硬核科研工具系列汇总

单细胞思路 | 第4期预测标志物，单细胞和疾病稳稳联系！

硬核生物信息学系列汇总

临床系列R包 | 第4期. 高效处理LASSO回归的利器：glmnet包

硬核临床科研系列汇总

医学高分神刊 ! 一投就中的1区SCI , 医学领域内顶级TOP期刊

硬核生物信息学系列汇总

Circulation综述 | 新时代的“液态活检” ——外周血无创监测心脏移植术后排斥反应的分子诊断方式

硬核基础科研系列汇总

Sci Transl Med | 乙酰化！站在脂质代谢和表观修饰的交汇点上！揭秘血管重构背后的奥秘

硬核生物信息学系列汇总

统计推断与作图｜第4期. 方差分析全解析

硬核临床科研系列汇总

SCI作图 | 第11期. 机制图中线条绘制大法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉