harmony整合“失败”才是正常的

学术 2024-10-01 16:16 广东

我们的马拉松授课的单细胞环节给了大家一套适用于几千个单细胞转录组数据集的完整降维聚类分群代码，但是有一些小伙伴在应用于自己感兴趣的研究的时候就出现了一些看起来是bug的结果。

比如咱们九月份的学员就反馈了这个数据集：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE125688

GSM3580367 BEC_ctr1
GSM3580368 BEC_ctr2
GSM3580369 BEC_ctr3
GSM3580370 BEC_DDC1
GSM3580371 HEP_ctr1
GSM3580372 HEP_DDC1

对应的文章是：Single-Cell Analysis of the Liver Epithelium Reveals Dynamic Heterogeneity and an Essential Role for YAP in Homeostasis and Regeneration. Cell Stem Cell 2019 Jul 3;25(1):23-38.e8. PMID: 31080134

这个研究关心的是这两个不同的上皮细胞： hepatocytes and biliary epithelial cells (BECs)，我们很容易下载到不同样品的作者提供的表达量矩阵文件：

 ls -lh *gz|cut -d" " -f 6-
  1.7M  1 26  2019 GSM3580367_bil-adult1.coutb.csv.gz
  2.3M  1 26  2019 GSM3580367_bil-adult1.coutc.csv.gz
  1.8M  1 26  2019 GSM3580367_bil-adult1.coutt.csv.gz
  1.6M  1 26  2019 GSM3580368_bil-adult2.coutb.csv.gz
  2.1M  1 26  2019 GSM3580368_bil-adult2.coutc.csv.gz
  1.7M  1 26  2019 GSM3580368_bil-adult2.coutt.csv.gz
  2.3M  1 26  2019 GSM3580369_bil-adult3.coutb.csv.gz
  3.2M  1 26  2019 GSM3580369_bil-adult3.coutc.csv.gz
  2.5M  1 26  2019 GSM3580369_bil-adult3.coutt.csv.gz
  3.5M  1 26  2019 GSM3580370_bil-DDC1.coutb.csv.gz
  4.7M  1 26  2019 GSM3580370_bil-DDC1.coutc.csv.gz
  3.9M  1 26  2019 GSM3580370_bil-DDC1.coutt.csv.gz
  6.8M  1 26  2019 GSM3580371_hep-adult1.coutb.csv.gz
  8.7M  1 26  2019 GSM3580371_hep-adult1.coutc.csv.gz
  8.5M  1 26  2019 GSM3580371_hep-adult1.coutt.csv.gz
  5.6M  1 26  2019 GSM3580372_hep-DDC1.coutb.csv.gz
  7.5M  1 26  2019 GSM3580372_hep-DDC1.coutc.csv.gz
  6.8M  1 26  2019 GSM3580372_hep-DDC1.coutt.csv.gz

很简单的批量读取代码：

dir='GSE125688_RAW/'
samples=list.files( dir  ,pattern = 'c.csv.gz')
samples
sceList = lapply(samples,function(pro){ 
  # pro=samples[3] 
  print(pro)   
  tmp=fread( file.path(dir,pro )   ,
              header = F,data.table = F ) 
  head(tmp)
  gid=str_split(tmp[,1],'_',simplify = T)[,1]
  kp=!duplicated(gid);table(kp)
  tmp=tmp[kp,]
  gid=gid[kp]
  rownames(tmp)=gid
  ct=tmp[,-1] 
  sce =CreateSeuratObject(counts =  ct ,
                          project =  gsub('.coutc.csv.gz','',
                                          gsub('GSM[0-9]*_','',pro) )  ,
                          min.cells = 5,
                          min.features = 300 )
  return(sce)
}) 
do.call(rbind,lapply(sceList, dim)) 
samples=gsub('.coutc.csv.gz','',
     gsub('GSM[0-9]*_','',samples) ) 
samples
sce.all=merge(x=sceList[[1]],
              y=sceList[ -1 ] ,   
              add.cell.ids = samples  )  
sce.all <- JoinLayers(sce.all)

降维聚类分群后可以看到：

               0    1    2    3
  bil-adult1    5 1236    0    0
  bil-adult2    0 1369    0    0
  bil-adult3   12 1491   11    0
  bil-DDC1     38 1688    3   23
  hep-adult1 4354    0   21    4
  hep-DDC1   2563    8   54   58

如果是仅仅是看上面的表格，初学者确实是很容易错误的判断了harmony整合“失败”。比如我们看2023-GSE181919-头颈癌-疾病进展单细胞，成功的整合后应该是如下所示：

成功的整合

其实是因为，初学者对生物学背景的把握不行，这个时候harmony整合“失败”才是正常的，既然我们的样品本来就是纯粹的胆管上皮细胞和肝细胞的，那么样品之间就不能被harmony混合， 合理的结果，说明了我们的harmony可以很好的处理样品差异和真实的生物学差异问题！

因为很容易根据特异性基因去给这些亚群生物学名字，很明显1是胆管上皮细胞，而0是肝细胞，所以它们有样品特异性：

很明显1是胆管上皮细胞，而0是肝细胞

文末友情宣传

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课，你的生物信息学入门课。

http://mp.weixin.qq.com/s?__biz=MzI1Njk4ODE0MQ==&mid=2247525622&idx=1&sn=6468dfc71dfb8739132298ab2e464f45

单细胞天地

对应生信技能树论坛›研究热点›单细胞测序版块，力求全方位收集整理分享单细胞测序数据的应用，涵盖多种组学，多种疾病，发育机理，药物开发等等

最新文章

话廿七｜单细胞测序，还是要做

基于FeaturePlot参数调优及ggplot2美化

单细胞分析揭示动脉粥样硬化斑块的基因表达图谱

CODEX：单细胞转录组的下一步?

髓系免疫：为乳腺癌的转移铺路？

话廿六｜课题组来了个生物信息

FeaturePlot可视化及常用参数浅析

成人肾脏细胞异质性分析

生信入门&数据挖掘线上直播课11月班

心脏的单细胞亚群对应的标记基因

话廿五｜生物信息入门者陷阱

使用小提琴图可视化目的基因并计算显著性

系统性红斑狼疮单细胞水平的异质性

生信入门&数据挖掘线上直播课11月班

第十一届全国功能基因组学高峰论坛在广州成功召开！

肺腺癌单细胞数据集GSE189357复现(三)：基因可视化

话廿四｜生物信息的代码保有量

细胞通讯分析笔记整理

肿瘤单基因研究的若干问题之三：目的基因的筛选2.0

千呼万唤，让我们长沙线下约起

肺腺癌单细胞数据集GSE189357复现(二)：细胞注释

话廿三｜以生物信息仰观宇宙之大

小提琴图有点无图是何缘由？

6翻了！十余篇高质量研究成果展现

血浆和肿瘤组织的多组学分析揭示了三阴性乳腺癌抗PD-L1免疫治疗的核心蛋白

千呼万唤，让我们长沙线下约起

血浆和肿瘤组织的多组学分析揭示了三阴性乳腺癌抗PD-L1免疫治疗的核心蛋白

我可以回答你单细胞的任何分析，只需要你完成一个小事！

话廿二｜生物信息，再不AI就老了

基于VlnPlot参数及ggplot2美化小提琴图

小鼠胰腺导管腺癌进展过程中的细胞异质性

肺腺癌单细胞数据集GSE189357复现(一)：数据下载整理、降维聚类与分群

生信入门&数据挖掘线上直播课10月班（国庆加量不加价！）

不能要求五年前的单细胞文章按照现在的知识体系做分析

为什么执着于复现出来张泽民大佬的单细胞分群呢

廿一｜生物信息“农转非”

VlnPlot结果及常用参数浅析

harmony整合“失败”才是正常的

小鼠脊髓损伤后细胞异质性和相互作用-2

康奈尔医学院王光煜课题组的计算生物人才招聘（博士后，讲师，研究助理教授）

从小白到成功发表生信相关的论文

话廿 | 生物信息方向产品经理

热图联动点图展示Marker基因

小鼠脊髓损伤后细胞异质性和相互作用-1

用单细胞公共数据库给组织再生研究开个头！！！

肿瘤单基因研究的若干问题之三：目的基因的筛选1.0

生信入门&数据挖掘线上直播课10月班

话十九 | 单细胞多组学应用T2T参考基因组的时机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉