人工智能大模型会以为是错误的PCA图

学术 2024-11-04 16:06 广东

我们的马拉松授课最重要的技能就是表达量数据处理，包括表达量芯片，转录组测序，以及单细胞转录组的数据分析。然后有小伙伴在实战到时候处理了他自己的一个简单的转录组测序，就是2分组，每个组是3个样品。然后使用我们的授课代码出图发现了一个他自己的知识点盲区：

知识点盲区

我们这个代码使用了十几年了，一直没有问题，我随手处理了一个表达量芯片数据集：5 healthy tissue samples, 9 DCIS and 5 invasive ductal carcinomas were analysed.

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21422

可以看到，其中control样品，就是 5 healthy tissue samples，在层次聚类热图里面确实是5个样品，在pca图里面也是5个小点，然后有一个大的点。所以看起来给初学者的感觉是多了一个样品，因为默认样品才是有点作为标记。

在pca图里面也是5个小点

实际上，这个是画主成分分析图需要加载的这两个包的特性，它给每个分组加上一个代表性的点这个点比样品的点大一些，所以很容易区分，它并不是一个样品。

  library("FactoMineR")#画主成分分析图需要加载这两个包
  library("factoextra")  
  #～～～主成分分析图p2～～～
  dat.pca <- PCA(exp , graph = FALSE)#现在exp最后一列是group_list，需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
  this_title <- paste0(pro,'_PCA')
  p2 <- fviz_pca_ind(dat.pca,
                     geom.ind = "point", # show points only (nbut not "text")
                     col.ind = group_list, # color by groups
                     palette = "Dark2",
                     addEllipses = TRUE, # Concentration ellipses
                     legend.title = "Groups")+
    ggtitle(this_title)+
    theme_ggstatsplot()+
    theme(plot.title = element_text(size=12,hjust = 0.5))
  
  p2
  ggsave('qc_pca.pdf',width = 5,height = 5)

但是如果问人工智能大模型这个问题：做bulk RNAseq的时候只用了六个样本 3个实验组 3个对照组，但是PCA图上每个分组却有四个点这是什么原因呢？

人工智能大模型给出的答案并不是合理的：

在使用bulk RNA-seq数据进行主成分分析（PCA）时，如果每个分组在PCA图上显示了四个点，而不是预期的三个点，可能有几个原因：

技术重复：

实验中可能无意中包含了技术重复，即某些样本被测序了多次。

数据处理错误：

在数据处理或数据导入时可能发生了错误，导致某些样本被错误地计算或标记了多次。

样本标记错误：

在样本处理或数据记录过程中可能发生了标记错误，使得同一个样本被错误地归入了不同的组。

数据合并：

如果数据来自不同的实验批次或不同的测序运行，可能在合并数据时发生了错误，导致某些样本被重复计算。

批次效应：

即使样本数量不多，批次效应也可能导致数据在PCA图上出现意外的分布模式。

数据标准化问题：

数据标准化过程中的问题可能导致某些样本的表达模式被放大或缩小，从而影响PCA结果。

基因表达量异常：

某些样本中可能存在异常高的基因表达量，这可能影响PCA分析的结果。

PCA分析参数设置：

PCA分析时的参数设置可能不正确，例如在计算主成分时使用了不恰当的变量或权重。

数据可视化错误：

在将PCA结果可视化时可能发生了错误，导致图上的点被错误地标记或显示。

样本污染或交叉污染：

实验操作过程中的污染可能导致样本混合，影响PCA结果。

为了解决这个问题，需要仔细检查实验设计、样本处理、数据质量和数据处理流程。可能需要重新检查原始数据、实验记录和分析代码，以确定问题的根源，并采取相应的措施进行修正。在必要时，可能需要重新进行实验或测序以获得准确的数据。

写在文末

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247534910&idx=1&sn=66bb4ee235b6472a0e58bdb27e2fccc0

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

学习笔记：slurm作业调度系统

大佬带你回顾人类肿瘤 scRNA-seq 的第一个十年

每个生信小白都应该避坑的小细节！

基因影像组学方向的教职/研究岗/博后都可以聊聊看

卷赢科研服务市场的金钥匙-云平台

生信数据分析的底层确实是统计学

单细胞注释记不住marker怎么办--让AI帮你解释差异基因

做生物信息学就应该去国家生物信息中心（中国科学院北京基因组研究所）

千呼万唤，让我们长沙线下约起

ReactomePA安装及报错解决

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉