当然是一模一样啊

学术 2024-10-24 20:59 广东

小伙伴做了一个单细胞转录组的常规的降维聚类分群图，但是说跟原文一模一样，仅仅是修改了配色，不知道能不能用到自己的数据挖掘课题，主要是这样不知道算不算抄袭！

如下所示，确实是可以很明显的看到原文的umap跟复现的一模一样：

原文的umap跟复现的一模一样

然后我问了问小伙伴的降维聚类分群代码，但是对方说其实并没有做降维聚类分群，直接使用了作者给出来的rdata文件，里面就有细胞的亚群信息以及UMAP的坐标，所以直接绘图了。这，简直是搞笑啊，当然是一模一样啊！

因为文章提供的就有单细胞转录组表达量矩阵以及已经做好了的降维聚类分群分析，还有最后的UMAP坐标，文章是：《Spatial multi-omic map of human myocardial infarction》,可以看到投稿说2020但是到2022才方便，看样子发文章确实是不容易：

https://doi.org/10.1038/s41586-022-05060-x 
Received: 30 November 2020
Accepted: 29 June 2022
Published online: 10 August 2022

数据主要是 Processed snRNA-seq, snATAC-seq, and spatial transcriptomics data are available at

cellxgene https://cellxgene.cziscience.com/ collections/8191c283-0816-424b-9b61-c3e1d6258a77
the Zenodo data archive (https://zenodo.org/record/6578047).

直接读取作者给出来的rds文件，代码如下所示：

sce.all=readRDS('input/All-snRNA.rds')
sce.all
colnames(sce.all@meta.data) 
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])

head(sce.all@meta.data, 10)
table(sce.all$sample) 
boxplot(table(sce.all$sample) )
sce.all$orig.ident  = sce.all$sample
table(sce.all$cell_type_original) 

DimPlot(sce.all,group.by = 'cell_type_original',label = T,repel = T)
ggsave('paper-umap.pdf',width = 8)

如果仅仅是跑上面的代码那必然是做出来一模一样的UMAP图啊，应该是不合规的如果要放自己的数据挖掘课题文章里面。其实简简单单获取一下作者的rds文件里面的纯粹的表达量矩阵即可，走自己的降维聚类分群，代码如下所示：

ensembl_matrix=sce.all@assays$RNA$counts
head(rownames(ensembl_matrix))
library(AnnoProbe)
head(rownames(ensembl_matrix))
ids=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')
head(ids)
tail(sort(table(ids$biotypes)))
ids=ids[ids$biotypes=='protein_coding',]
ids=ids[!duplicated(ids$SYMBOL),]
ids=ids[!duplicated(ids$ENSEMBL),]
symbol_matrix= ensembl_matrix[match(ids$ENSEMBL,rownames(ensembl_matrix)),]
rownames(symbol_matrix) = ids$SYMBOL

sce.all=CreateSeuratObject(
  counts = symbol_matrix,
  meta.data = sce.all@meta.data
)

详细的代码在百度云网盘链接: https://pan.baidu.com/s/1QRFWje5tI6Nodw3I3EX5Tg?pwd=7xp4 提取码: 7xp4

可以看到，自己做出来的图当然是有自己的独特的坐标，因为每个人的质量控制参数不一样，降维聚类分群的细节也不一样，还有随机数种子也不一样。而且最后的UMAP图可以修改配色，取决于自己的想法：

当然了，如果你自己降维聚类分群发现一些亚群并没有作者那样的泾渭分明，有强迫症的话，可以试试看；不是造假胜似造假的单细胞降维聚类分群。

单细胞网页工具怎么办呢？

很多小伙伴并不想自己学习单细胞转录组降维聚类分群等数据处理，因为有大量的网页工具可以处理公共数据集，但是呢，网页工具通常来说都是公开的，每个人都可以访问所以同样的需求的小伙伴们肯定是拿到了同样的图表。那么大家使用了同一个网页工具出来的同样的图，不会有学术违规吗？我们来让人工智能大模型说说看：

使用网页工具处理公共单细胞转录组数据集并生成图表，确实可能会导致多个研究者获得相似或相同的结果。然而，这并不一定构成学术违规，关键在于如何处理和呈现这些结果。以下是一些需要考虑的要点：

数据所有权：

公共数据集通常是由研究者共享给科学界的，目的是促进科学研究和发现。使用这些数据进行分析是被鼓励的，只要遵守数据使用协议。

原创性：

学术研究强调原创性。即使多个研究者使用了相同的工具和数据集，他们对数据的解释、分析方法和得出的结论可以是不同的。

透明度和可重复性：

科学研究要求透明度和可重复性。使用公共工具和数据集时，应该清楚地记录分析步骤，并在可能的情况下分享代码和方法。

引用数据来源：

在发表结果时，应该适当引用数据来源，包括原始数据集和使用的网页工具。

增加价值：

研究者可以通过提出新的假设、使用创新的分析方法或将数据与额外的实验结果相结合，来增加研究的价值。

避免抄袭：

直接复制他人的分析结果或图表而不进行适当的引用是学术不端行为。应该避免这种行为，并确保研究的独立性和原创性。

个性化分析：

即使使用相同的工具，通过调整参数、选择不同的分析方法或关注不同的生物学问题，也可以得到独特的分析结果。

结果解释：

对于相同的数据集，不同的研究者可能会有不同的见解和解释。这些解释和洞见是研究的重要组成部分。

伦理审查：

在使用公共数据集时，应确保遵守伦理准则，包括保护参与者的隐私和遵守数据使用协议。

总之，使用公共数据集和网页工具进行分析本身并不构成学术违规，关键在于如何合理、透明和创新地使用这些资源，并确保研究的原创性和科学诚信。

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。而且这个周六日我们在长沙线下授课哦：千呼万唤，让我们长沙线下约起

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247534660&idx=1&sn=3ddb903283c2ea00544346df96e9a334

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

学习笔记：slurm作业调度系统

大佬带你回顾人类肿瘤 scRNA-seq 的第一个十年

每个生信小白都应该避坑的小细节！

基因影像组学方向的教职/研究岗/博后都可以聊聊看

卷赢科研服务市场的金钥匙-云平台

生信数据分析的底层确实是统计学

单细胞注释记不住marker怎么办--让AI帮你解释差异基因

做生物信息学就应该去国家生物信息中心（中国科学院北京基因组研究所）

千呼万唤，让我们长沙线下约起

ReactomePA安装及报错解决

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉