小伙伴做了一个单细胞转录组的常规的降维聚类分群图,但是说跟原文一模一样,仅仅是修改了配色,不知道能不能用到自己的数据挖掘课题,主要是这样不知道算不算抄袭!
如下所示,确实是可以很明显的看到原文的umap跟复现的一模一样 :
然后我问了问小伙伴的降维聚类分群代码,但是对方说其实并没有做降维聚类分群,直接使用了作者给出来的rdata文件,里面就有细胞的亚群信息以及UMAP的坐标,所以直接绘图了。这,简直是搞笑啊,当然是一模一样啊!
因为文章提供的就有单细胞转录组表达量矩阵以及已经做好了的降维聚类分群分析,还有最后的UMAP坐标,文章是:《Spatial multi-omic map of human myocardial infarction》,可以看到投稿说2020但是到2022才方便,看样子发文章确实是不容易 :
https://doi.org/10.1038/s41586-022-05060-x
Received: 30 November 2020
Accepted: 29 June 2022
Published online: 10 August 2022
数据主要是 Processed snRNA-seq, snATAC-seq, and spatial transcriptomics data are available at
cellxgene https://cellxgene.cziscience.com/ collections/8191c283-0816-424b-9b61-c3e1d6258a77 the Zenodo data archive (https://zenodo.org/record/6578047).
直接读取作者给出来的rds文件,代码如下所示:
sce.all=readRDS('input/All-snRNA.rds')
sce.all
colnames(sce.all@meta.data)
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$sample)
boxplot(table(sce.all$sample) )
sce.all$orig.ident = sce.all$sample
table(sce.all$cell_type_original)
DimPlot(sce.all,group.by = 'cell_type_original',label = T,repel = T)
ggsave('paper-umap.pdf',width = 8)
如果仅仅是跑上面的代码那必然是做出来一模一样的UMAP图啊,应该是不合规的如果要放自己的数据挖掘课题文章里面。其实简简单单获取一下作者的rds文件里面的纯粹的表达量矩阵即可,走自己的降维聚类分群,代码如下所示:
ensembl_matrix=sce.all@assays$RNA$counts
head(rownames(ensembl_matrix))
library(AnnoProbe)
head(rownames(ensembl_matrix))
ids=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
symbol_matrix= ensembl_matrix[match(ids$ENSEMBL,rownames(ensembl_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL
sce.all=CreateSeuratObject(
counts = symbol_matrix,
meta.data = sce.all@meta.data
)
详细的代码在百度云网盘链接: https://pan.baidu.com/s/1QRFWje5tI6Nodw3I3EX5Tg?pwd=7xp4 提取码: 7xp4
可以看到, 自己做出来的图当然是有自己的独特的坐标,因为每个人的质量控制参数不一样,降维聚类分群的细节也不一样,还有随机数种子也不一样。而且最后的UMAP图可以修改配色,取决于自己的想法:
当然了,如果你自己降维聚类分群发现一些亚群并没有作者那样的泾渭分明,有强迫症的话,可以试试看;不是造假胜似造假的单细胞降维聚类分群。
单细胞网页工具怎么办呢?
很多小伙伴并不想自己学习单细胞转录组降维聚类分群等数据处理,因为有大量的网页工具可以处理公共数据集,但是呢,网页工具通常来说都是公开的,每个人都可以访问所以同样的需求的小伙伴们肯定是拿到了同样的图表。那么大家使用了同一个网页工具出来的同样的图,不会有学术违规吗?我们来让人工智能大模型说说看:
使用网页工具处理公共单细胞转录组数据集并生成图表,确实可能会导致多个研究者获得相似或相同的结果。然而,这并不一定构成学术违规,关键在于如何处理和呈现这些结果。以下是一些需要考虑的要点:
数据所有权:
公共数据集通常是由研究者共享给科学界的,目的是促进科学研究和发现。使用这些数据进行分析是被鼓励的,只要遵守数据使用协议。
原创性:
学术研究强调原创性。即使多个研究者使用了相同的工具和数据集,他们对数据的解释、分析方法和得出的结论可以是不同的。
透明度和可重复性:
科学研究要求透明度和可重复性。使用公共工具和数据集时,应该清楚地记录分析步骤,并在可能的情况下分享代码和方法。
引用数据来源:
在发表结果时,应该适当引用数据来源,包括原始数据集和使用的网页工具。
增加价值:
研究者可以通过提出新的假设、使用创新的分析方法或将数据与额外的实验结果相结合,来增加研究的价值。
避免抄袭:
直接复制他人的分析结果或图表而不进行适当的引用是学术不端行为。应该避免这种行为,并确保研究的独立性和原创性。
个性化分析:
即使使用相同的工具,通过调整参数、选择不同的分析方法或关注不同的生物学问题,也可以得到独特的分析结果。
结果解释:
对于相同的数据集,不同的研究者可能会有不同的见解和解释。这些解释和洞见是研究的重要组成部分。
伦理审查:
在使用公共数据集时,应确保遵守伦理准则,包括保护参与者的隐私和遵守数据使用协议。
总之,使用公共数据集和网页工具进行分析本身并不构成学术违规,关键在于如何合理、透明和创新地使用这些资源,并确保研究的原创性和科学诚信。
如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。而且这个周六日我们在长沙线下授课哦:千呼万唤,让我们长沙线下约起