人工智能大模型会以为是错误的PCA图

学术   2024-11-04 16:06   广东  

我们的马拉松授课最重要的技能就是表达量数据处理,包括表达量芯片,转录组测序,以及单细胞转录组的数据分析。然后有小伙伴在实战到时候处理了他自己的一个简单的转录组测序,就是2分组,每个组是3个样品。然后使用我们的授课代码出图发现了一个他自己的知识点盲区:

知识点盲区

我们这个代码使用了十几年了,一直没有问题,我随手处理了一个表达量芯片数据集:5 healthy tissue samples, 9 DCIS and 5 invasive ductal carcinomas were analysed.

  • https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE21422

可以看到, 其中control样品,就是 5 healthy tissue samples,在层次聚类热图里面确实是5个样品,在pca图里面也是5个小点,然后有一个大的点。所以看起来给初学者的感觉是多了一个样品,因为默认样品才是有点作为标记。

在pca图里面也是5个小点

实际上,这个是画主成分分析图需要加载的这两个包的特性,它给每个分组加上一个代表性的点这个点比样品的点大一些,所以很容易区分,它并不是一个样品。

  library("FactoMineR")#画主成分分析图需要加载这两个包
  library("factoextra")  
  #~~~主成分分析图p2~~~
  dat.pca <- PCA(exp , graph = FALSE)#现在exp最后一列是group_list,需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的
  this_title <- paste0(pro,'_PCA')
  p2 <- fviz_pca_ind(dat.pca,
                     geom.ind = "point"# show points only (nbut not "text")
                     col.ind = group_list, # color by groups
                     palette = "Dark2",
                     addEllipses = TRUE# Concentration ellipses
                     legend.title = "Groups")+
    ggtitle(this_title)+
    theme_ggstatsplot()+
    theme(plot.title = element_text(size=12,hjust = 0.5))
  
  p2
  ggsave('qc_pca.pdf',width = 5,height = 5)

但是如果问人工智能大模型这个问题:做bulk RNAseq的时候只用了六个样本 3个实验组 3个对照组 ,但是PCA图上每个分组却有四个点 这是什么原因呢?

人工智能大模型给出的答案并不是合理的:

在使用bulk RNA-seq数据进行主成分分析(PCA)时,如果每个分组在PCA图上显示了四个点,而不是预期的三个点,可能有几个原因:

  1. 技术重复

  • 实验中可能无意中包含了技术重复,即某些样本被测序了多次。
  • 数据处理错误

    • 在数据处理或数据导入时可能发生了错误,导致某些样本被错误地计算或标记了多次。
  • 样本标记错误

    • 在样本处理或数据记录过程中可能发生了标记错误,使得同一个样本被错误地归入了不同的组。
  • 数据合并

    • 如果数据来自不同的实验批次或不同的测序运行,可能在合并数据时发生了错误,导致某些样本被重复计算。
  • 批次效应

    • 即使样本数量不多,批次效应也可能导致数据在PCA图上出现意外的分布模式。
  • 数据标准化问题

    • 数据标准化过程中的问题可能导致某些样本的表达模式被放大或缩小,从而影响PCA结果。
  • 基因表达量异常

    • 某些样本中可能存在异常高的基因表达量,这可能影响PCA分析的结果。
  • PCA分析参数设置

    • PCA分析时的参数设置可能不正确,例如在计算主成分时使用了不恰当的变量或权重。
  • 数据可视化错误

    • 在将PCA结果可视化时可能发生了错误,导致图上的点被错误地标记或显示。
  • 样本污染或交叉污染

    • 实验操作过程中的污染可能导致样本混合,影响PCA结果。

    为了解决这个问题,需要仔细检查实验设计、样本处理、数据质量和数据处理流程。可能需要重新检查原始数据、实验记录和分析代码,以确定问题的根源,并采取相应的措施进行修正。在必要时,可能需要重新进行实验或测序以获得准确的数据。

    写在文末

    如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。


    生信技能树
    生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
     最新文章