作者分享数据的时候就给你错误的单细胞命名你怎么办

学术   教育   2024-11-30 23:06   重庆  

我们一直都有一个付费的生物信息学数据分析活动,详见:最低仅需800,就有一个生信工程师为你服务!,但是提供的服务非常有限,目前就剩下了:

其实所谓的付费并不是大家通常以为的知识付费,因为里面的代码和生物信息学数据分析步骤我们早就分享了,基本上就是收取一个计算机资源费用!而且很多时候,我们有大量的项目经验是很容易去判别公共数据集的质量,这一点只有被折磨过的小伙伴才懂背后的价值。通常情况下,没有经历过三五天debug煎熬的小伙伴往往是会轻视工程师的劳动量。比如用户拿到合作者使用R语言的4.3软件保存的某个癌症的单细胞转录组数据集的表达量矩阵信息的rdata文件,然后因为自己是r语言的4.4,遇到了下面的报错,以为是r软件版本冲突。就疯狂的去试图安装4.3版本的R编程语言软件来解决问题,然后去试图怪罪Seurat的v4或者v5版本的不兼容:

以为是r软件版本冲突

实际上,对应有经验的成熟的生信工程师来说,很容易看出来其实是rdata文件不完整导致的读取失败,并不是r包版本或者r软件版本冲突,就是rdata文件在拷贝或者上传下载过程中的不完整!

同样的道理适用于各种生信报错,比如作者分享数据的时候就给你错误的单细胞命名,就是这个2023年2月的一个文章:《Platelet-instructed SPP1+ macrophages drive myofibroblast activation in fibrosis in a CXCL4- dependent manner》,对应的数据链接是:https://www.ebi.ac.uk/ena/browser/view/PRJEB58150

很容易下载到里面的单细胞部分的fq文件,如下所示;

5.2G 11月 27 11:31 ERR10692784_1.fastq.gz
 11G 11月 27 11:32 ERR10692784_2.fastq.gz
4.8G 11月 27 15:13 ERR10692785_1.fastq.gz
 11G 11月 27 16:04 ERR10692785_2.fastq.gz
7.1G 11月 27 10:54 ERR10692786_1.fastq.gz
 15G 11月 27 10:54 ERR10692786_2.fastq.gz
5.8G 11月 27 17:36 ERR10692787_1.fastq.gz
 13G 11月 27 18:29 ERR10692787_2.fastq.gz
6.0G 11月 27 12:18 ERR10692788_1.fastq.gz
 13G 11月 27 13:23 ERR10692788_2.fastq.gz
7.4G 11月 27 19:04 ERR10692789_1.fastq.gz
 15G 11月 27 19:05 ERR10692789_2.fastq.gz
5.8G 11月 27 13:55 ERR10692790_1.fastq.gz
 13G 11月 27 14:59 ERR10692790_2.fastq.gz
 13G 11月 27 16:52 ERR10692791_1.fastq.gz
5.8G 11月 27 17:11 ERR10692791_2.fastq.gz

其实根据文件大小,就可以推测出来r1和r2文件,但是值得注意的是最后一个样品很明显是反过来了,所以如果我们批量修改如下所示的文件名字,就会出现WT_IRI_2这个样品对应的ERR10692791的fq文件走cellranger定量流程会失败:

CXCL4KO_IRI_1_S1_L001_R1_001.fastq.gz -> ERR10692786_1.fastq.gz
CXCL4KO_IRI_1_S1_L001_R2_001.fastq.gz -> ERR10692786_2.fastq.gz
CXCL4KO_IRI_2_S1_L001_R1_001.fastq.gz -> ERR10692787_1.fastq.gz
CXCL4KO_IRI_2_S1_L001_R2_001.fastq.gz -> ERR10692787_2.fastq.gz
CXCL4KO_Sham_1_S1_L001_R1_001.fastq.gz -> ERR10692784_1.fastq.gz
CXCL4KO_Sham_1_S1_L001_R2_001.fastq.gz -> ERR10692784_2.fastq.gz
CXCL4KO_Sham_2_S1_L001_R1_001.fastq.gz -> ERR10692785_1.fastq.gz
CXCL4KO_Sham_2_S1_L001_R2_001.fastq.gz -> ERR10692785_2.fastq.gz
WT_IRI_1_S1_L001_R1_001.fastq.gz -> ERR10692790_1.fastq.gz
WT_IRI_1_S1_L001_R2_001.fastq.gz -> ERR10692790_2.fastq.gz
WT_IRI_2_S1_L001_R1_001.fastq.gz -> ERR10692791_2.fastq.gz
WT_IRI_2_S1_L001_R2_001.fastq.gz -> ERR10692791_1.fastq.gz
WT_Sham_1_S1_L001_R1_001.fastq.gz -> ERR10692788_1.fastq.gz
WT_Sham_1_S1_L001_R2_001.fastq.gz -> ERR10692788_2.fastq.gz
WT_Sham_2_S1_L001_R1_001.fastq.gz -> ERR10692789_1.fastq.gz
WT_Sham_2_S1_L001_R2_001.fastq.gz -> ERR10692789_2.fastq.gz

所以解决方案很简单,就是自己主动修改文件名字即可对这个失败的样品进行cellranger定量流程。正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:

差不多几个小时就可以完成全部的样品的cellranger的定量流程。

专业知识和经验是无价的财富

20世纪初,美国福特公司在高速发展期间,一台电机出现故障导致整个车间停产。尽管请了许多专家和检修工人,但都无法找到故障原因。最后,物理学家和电机专家斯坦门茨被请来,他经过三天的仔细倾听和检查,最终用粉笔在电机的一个部位划了一条线,指出这里的线圈多绕了16圈。按照他的指示修改后,电机故障被排除,生产得以恢复。

福特公司经理询问斯坦门茨需要多少酬金,斯坦门茨索要1万美元。在当时,这笔钱相当于一个普通职员100多年的收入。斯坦门茨随后解释,画一条线只值1美元,但知道在哪里画线值9999美元。福特公司经理理解了斯坦门茨的价值,不仅支付了酬金,还聘用了他。

学徒作业:

上面的PRJEB58150数据集里面也有普通的转录组,大家可以试试看对它们进行定量:

685M 11月 27 18:34 ERR10692792_1.fastq.gz
716M 11月 27 18:38 ERR10692792_2.fastq.gz
2.0G 11月 27 19:48 ERR10692793_1.fastq.gz
2.2G 11月 27 19:59 ERR10692793_2.fastq.gz
814M 11月 27 16:06 ERR10692794_1.fastq.gz
761M 11月 27 16:07 ERR10692794_2.fastq.gz
791M 11月 27 19:28 ERR10692795_1.fastq.gz
842M 11月 27 19:32 ERR10692795_2.fastq.gz
730M 11月 27 18:41 ERR10692796_1.fastq.gz
696M 11月 27 18:43 ERR10692796_2.fastq.gz
157M 11月 27 20:15 ERR10692797_1.fastq.gz
165M 11月 27 20:16 ERR10692797_2.fastq.gz
1.5G 11月 27 20:04 ERR10692798_1.fastq.gz
1.5G 11月 27 20:09 ERR10692798_2.fastq.gz
760M 11月 27 19:37 ERR10692799_1.fastq.gz
714M 11月 27 19:42 ERR10692799_2.fastq.gz
685M 11月 27 20:11 ERR10692800_1.fastq.gz
713M 11月 27 20:14 ERR10692800_2.fastq.gz
2.0G 11月 27 20:28 ERR10692801_1.fastq.gz
2.2G 11月 27 20:34 ERR10692801_2.fastq.gz
811M 11月 27 20:21 ERR10692802_1.fastq.gz
760M 11月 27 20:24 ERR10692802_2.fastq.gz
838M 11月 27 20:35 ERR10692803_1.fastq.gz
791M 11月 27 20:37 ERR10692803_2.fastq.gz
691M 11月 27 20:38 ERR10692804_1.fastq.gz
723M 11月 27 20:40 ERR10692804_2.fastq.gz
156M 11月 26 09:51 ERR10692805_1.fastq.gz
163M 11月 26 09:53 ERR10692805_2.fastq.gz
1.5G 11月 25 18:40 ERR10692806_1.fastq.gz
1.5G 11月 25 18:47 ERR10692806_2.fastq.gz
755M 11月 25 18:27 ERR10692807_1.fastq.gz
712M 11月 25 18:31 ERR10692807_2.fastq.gz

各个样品数据量差异有点大:

$ ls -lh *bam   |cut -d" " -f5-
1.3G 11月 28 15:45 ERR10692792.sort.bam
3.5G 11月 28 16:31 ERR10692793.sort.bam
1.4G 11月 28 15:48 ERR10692794.sort.bam
1.4G 11月 28 15:49 ERR10692795.sort.bam
1.3G 11月 28 15:45 ERR10692796.sort.bam
298M 11月 28 15:24 ERR10692797.sort.bam
2.5G 11月 28 16:13 ERR10692798.sort.bam
1.3G 11月 28 15:45 ERR10692799.sort.bam
1.3G 11月 28 15:45 ERR10692800.sort.bam
3.5G 11月 28 16:32 ERR10692801.sort.bam
1.4G 11月 28 15:48 ERR10692802.sort.bam
1.4G 11月 28 15:48 ERR10692803.sort.bam
1.2G 11月 28 15:44 ERR10692804.sort.bam
298M 11月 28 15:23 ERR10692805.sort.bam
2.5G 11月 28 16:11 ERR10692806.sort.bam
1.3G 11月 28 15:45 ERR10692807.sort.bam

定量后的矩阵,就可以去试试看走差异分析+富集分析的常规流程哈!

这个时候如果你完成这样的简简单单生物信息学任务都有难度,不妨看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。

如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)


生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。

数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)

详细比较如下:



报名时间

每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。

数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。

钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看)直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!

生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
 最新文章