顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么?

学术   2025-01-10 15:48   广东  

生信技能树接到一个粉丝求助:问一幅mRNA和蛋白质表达水平相关性图是什么意思以及如何复现?这个图来自文献《Proteogenomic characterization of small cell lung cancer identifies biological insights and subtypespecific therapeutic strategies》,于2024年1月发表在Cell上:

首先让人工智能大模型kimi帮我解读一下这个图片:

(G) Histograms of gene-wise correlation between mRNA and protein expression in SCLC tumors (top left) and NATs (top right). Different GSEA enrichment KEGG pathways representing different levels of correlation are annotated (bottom).

kimi解读得非常详细:

这张图片展示了小细胞肺癌(SCLC)肿瘤和正常肺上皮组织(NATs)中基因水平上mRNA与蛋白质表达之间的相关性。图片分为两个部分,左边是肿瘤组织的mRNA-蛋白质相关性,右边是正常肺上皮组织的mRNA-蛋白质相关性。每个部分都包括一个直方图和一些注释,具体如下:

肿瘤基因水平mRNA-蛋白质相关性(左图)

  • 直方图:显示了Spearman相关系数的概率密度分布。大多数相关系数集中在0.5左右,表明mRNA和蛋白质表达之间存在正相关
  • 相关性统计
    • 97.3%的基因表现出正相关。
    • 81.1%的基因表现出显著的正相关(调整后的P值<0.01)。
    • 平均相关系数为0.47,中位数为0.50。
  • KEGG通路注释:底部的条形图表示不同的基因集富集分析(GSEA)通路,这些通路与mRNA和蛋白质表达的相关性水平有关。例如,氧化磷酸化、核糖体、RNA聚合酶等通路在肿瘤中表现出较高的相关性。

NAT基因水平mRNA-蛋白质相关性(右图)

  • 直方图:同样显示了Spearman相关系数的概率密度分布,但分布更宽,表明相关性变化更大。
  • 相关性统计
    • 67.8%的基因表现出正相关。
    • 5.2%的基因表现出显著的正相关(调整后的P值<0.01)。
    • 平均相关系数为0.08,中位数为0.07。
  • KEGG通路注释:底部的条形图同样表示不同的GSEA通路,这些通路与mRNA和蛋白质表达的相关性水平有关。例如,氧化磷酸化、核糖体、剪接体等通路在NATs中表现出较高的相关性。

总结

  • 肿瘤组织中的mRNA-蛋白质相关性普遍高于正常肺上皮组织
  • 肿瘤组织中显著正相关的基因比例也远高于正常组织。
  • 两个组织类型中,氧化磷酸化、核糖体和剪接体等通路都显示出较高的相关性,这可能与细胞的基本功能和肿瘤特性有关。

这些信息有助于理解肿瘤和正常组织中基因表达调控的差异,以及这些差异如何影响细胞功能和疾病状态。

但是这个结果比较奇怪,为什么在正常组织里面 mRNA与蛋白质表达的相关性基本上都在0附近,也就是不相关呢?但是在肿瘤里面都在0.5 左右了,变得相关。

问一下kimi:mRNA和蛋白质表达水平相关性的生物学意义是什么?

mRNA和蛋白质表达水平之间的相关性具有重要的生物学意义,它可以帮助我们理解基因表达调控的复杂性以及细胞如何响应不同的生物学条件。以下是一些关键点:

  1. 基因表达调控:mRNA和蛋白质水平的相关性可以揭示基因表达调控的层次。例如,如果mRNA和蛋白质水平高度相关,这可能表明转录后调控(如RNA剪接、稳定性和翻译)对蛋白质水平的影响较小。相反,如果相关性较低,这可能意味着转录后调控在蛋白质表达中起着重要作用。

  2. 翻译效率:mRNA和蛋白质水平的相关性可以反映翻译效率。高相关性可能意味着mRNA的翻译效率较高,而低相关性可能表明存在翻译抑制或翻译效率的变化。

  3. 蛋白质稳定性:蛋白质的稳定性也会影响其与mRNA的相关性。如果蛋白质非常稳定,即使mRNA水平下降,蛋白质水平也可能保持较高,这会降低两者之间的相关性。

  4. 细胞应激反应:在细胞应激条件下,如营养缺乏、氧化应激或DNA损伤,mRNA和蛋白质表达水平的相关性可能会发生变化,这有助于细胞适应环境变化。

  5. 疾病状态:在疾病状态下,如癌症,mRNA和蛋白质表达水平的相关性可能会发生显著变化,这可能与疾病特有的基因表达调控机制有关。

  6. 药物靶点:了解mRNA和蛋白质表达水平的相关性对于药物开发至关重要。如果一个药物靶点的蛋白质水平与其mRNA水平高度相关,这可能意味着药物对mRNA水平的调控会有直接的蛋白质效应。

  7. 生物标志物:在某些情况下,蛋白质水平可能比mRNA水平更稳定,因此蛋白质表达水平可以作为更可靠的生物标志物,用于疾病诊断或治疗反应的监测。

  8. 系统生物学:在系统生物学研究中,mRNA和蛋白质表达水平的相关性有助于构建和验证生物网络模型,这些模型可以模拟细胞内复杂的分子相互作用。

总之,mRNA和蛋白质表达水平的相关性是理解细胞功能和疾病机制的关键,它为研究基因表达调控、细胞适应性和疾病治疗提供了重要的信息。

现在,我们简单的使用模拟数据展示一下如何绘制上面的mRNA与蛋白相关性密度分布(文章中的图片复现在下期介绍)

1、首先模拟mRNA表达矩阵:

rm(list=ls())
# 加载必要的库
library(MASS)

# 设置随机数种子以获得可重复的结果
set.seed(123)

# 模拟mRNA表达量矩阵
# 假设有10000个基因和100个样本
n_gene <- 10000
n_sample <- 100
mrna_matrix <- matrix(rnorm(n_gene*n_sample, mean = 0, sd = 1),
                      nrow = n_gene, ncol = n_sample)
colnames(mrna_matrix)=paste0('Sample',1:ncol(mrna_matrix))
rownames(mrna_matrix)=paste0('mRNA',1:nrow(mrna_matrix))
mrna_matrix
mrna_matrix[1:10,1:10]

2、接着模拟蛋白矩阵

# 模拟蛋白质表达量矩阵
# 假设蛋白质表达量与mRNA表达量有一定的相关性,但不是完全相关
# 我们可以通过添加一些噪声来模拟这一点
protein_matrix <- mrna_matrix + rnorm(n_gene*n_sample, mean = 0, sd = 0.5)
colnames(protein_matrix)=paste0('Sample',1:ncol(protein_matrix))
rownames(protein_matrix)=paste0('protein',1:nrow(protein_matrix))
protein_matrix[1:10,1:10]

mRNA表达矩阵的行基因与蛋白表达矩阵的行蛋白是一一对应,列的样本顺序也一致。

3、计算每对mRNA-Protein的相关性

得到一个 长度为10000的相关性值向量:

cors <- unlist(lapply(1:nrow(mrna_matrix), function(i){
  cor(mrna_matrix[i,],protein_matrix[i,])
}))
tumor_cors <- cors

head(tumor_cors)
# [1] 0.8513266 0.9216375 0.8905065 0.8799438 0.9256559 0.8821056

4、绘图

这里使用频率直方分布图进行展示,并绘制了拟合的密度曲线,注意实际绘制过程中调整bin区间:

library(ggplot2)
p <- ggplot(data = tumor_cors,aes(x=cors)) + 
  geom_histogram(aes(y=..density..),binwidth = 0.003,fill="#f3807f",color="black") + 
  stat_density(geom='line',position='identity', linewidth=0.6) + 
  theme_classic() 
 
p

结果如下:

番外:直方图中的频率与频数

简单回忆一下以前的统计学概念:Note:geom_histogram(aes(y=..density..),binwidth = 0.003,fill="#f3807f",color="black")

geom_histogram函数绘图时:

  • y=..density..绘制频率
  • y=..count..绘制频数

更加详细的内容,可以观看生信技能树的视频号:



生信技能树
生物信息学学习资料分析,常见数据格式及公共数据库资料分享。常见分析软件及流程,基因检测及癌症相关动态。
 最新文章