研究人员采用了深度的4D-DIA蛋白质组学和机器学习(ML)流程,从37例参与者(25例 CRC,12例健康对照HC)的发现队列的血清EV样本中鉴定出可用于CRC诊断的关键蛋白质PF4和AACT。通过ELISA方法在912例受试者组成的验证队列中进行验证,发现PF4和AACT的检测结果优于传统生物标志物CEA和CA19-9。他们开发了诊断效能高的EV相关随机森林模型,在训练集和测试集的AUC值分别为0.960和0.963。值得注意的是,该模型对早期CRC以及CRC与良性结直肠疾病的鉴别具有可靠的诊断性能。此外还采用多组学方法预测血清EV来源蛋白的功能和潜在来源。
图1:通过4D-DIA 蛋白质组学分析鉴定和表征HC 和CRC 患者血清EV
(A)分离的EVs的粒径分布和颗粒浓度。
(B)Western blot 在血清EV 中检测到EV 标志物CD63 和TSG101。GRP94和 calnexin用作阴性对照蛋白。
(C)TEM 图像显示了分离的EVs 的形态。
(D和 E)CRC组和 HC 组之间EVs 的 差异表达蛋白由火山图 (D, p < 0.05, log2fold change > 0.5, n = 37)和热图 (E)展示。
(F-I)上调蛋白富集分析显示,与HC 组相比,CRC组富集了潜在的分子功能 (F) 、 细胞成分 (G) 、生物过程 (H) 和 KEGG通路 (I)。
(A和 B)通过正交偏最小二乘判别分析(OPLS-DA)
分析,评分图 (A)
和散点图 (B)显示基于4D-DIA 蛋白质组学的CRC 和 HC受试者之间的显著区分。
(C)通过使用预测变量投射重要性 (VIPpred) 分析,根据 VIPpred scores >4选择的12 种候选蛋白。
(D)条形图显示了分类误差在基于不同算法的机器学习诊断模型中的价值。
(E)可变重要性评分图显示了随机森林诊断模型中12 种候选蛋白的贡献度。
(F和 G)基于4D-DIA 蛋白质组学的Lasso 回归分析和预后基因的部分似然偏差。最小标准和1-standard error (1SE) 标准用于在变量的最佳值处绘制垂直虚线。
(H)Venn图显示了来自随机森林模型和基于最小标准和1SE 标准的Lasso 回归模型的候选蛋白质的交集。
(I和J)基于PF4、AACT水平以及结合PF4和AACT水平的4D-DIA蛋白质组学的随机森林诊断模型的ROC曲线(I)和PR曲线(J)。
(A和B)通过ELISA检测EV来源PF4水平,在健康对照组(HC,训练集:n
= 96,测试集:n
= 112)、良性结肠病(BCD,训练集:n
= 47,测试集:n
= 55)和结直肠癌(CRC,训练集:n
= 195,测试集:n
= 161)组的结果分别展示在训练集(A)和测试集(B)中。
(C和D)通过ELISA检测EV来源AACT水平,在HC、BCD和CRC组的训练集(C)和测试集(D)中的结果。
(E和F)在CRC患者不同临床阶段的EV来源PF4水平,训练集(E,I期:n = 22,II期:n = 48,III期:n = 83,IV期:n = 42)和测试集(F,I期:n = 19,II期:n = 31,III期:n = 47,IV期:n = 64)中的结果。
(G和H)在CRC患者不同临床阶段的EV来源AACT水平,训练集(G)和测试集(H)中的结果。数据以均值± 标准差(SD)表示;n.s.表示不显著,∗p < 0.05,∗∗p < 0.01,∗∗∗p < 0.001。
(A和B)训练集中基于所指定变量的随机森林诊断模型的ROC曲线(A)和PR曲线(B)。
(C)累积局部效应(ALE)曲线描绘了PF4、AACT、CEA和CA19-9的累积局部效应。x轴代表特征值,y轴代表累积局部效应。
(D) Shapley值条形图展示了随机森林诊断模型中每个特征的Shapley值。每个条形代表在区分结直肠癌(CRC)患者和健康对照(HC)方面的平均贡献。
(E)变量重要性得分图显示了随机森林诊断模型中4个变量的贡献。
(F)不同变量组合的随机森林诊断模型的分类误差CE值、AUC值和AUC-PR值。
(G)混淆矩阵展示了273个测试集样本(161个CRC和112个HC)以及158个外部样本(98个CRC和60个HC)通过EV相关诊断模型的预测结果。
(H和I)使用训练集和测试集为EV相关诊断模型绘制的ROC曲线(H)和PR曲线(I)。
(J) 混淆矩阵通过EV 相关诊断模型显示了273 个测试集样本 (161 个 CRC和 112 个HC) 和 158个外部集样本 (98个 CRC 和60 个 HC) 的预测结果。
(K和L)使用训练集和测试集为EV相关诊断模型绘制的ROC曲线(K)和PR曲线(L)。
(A和 B)GSEA根据 EV 来源的PF4-high (红色,n =
13) 和 PF4-low(蓝色,n =
12) 表型显示排名靠前的通路。
(C) 在 EV 来源的PF4-low表型中富集的相关通路的Enrichment Map 网络分析。
(D)STRING 数据库分析揭示了PF4 与富集通路中涉及的关键蛋白之间的潜在相互作用。
(E和 F)GSEA根据 EV 来源的AACT-high (红色,n = 13) 和 AACT-low(蓝色,n = 12) 表型显示了排名靠前的通路。
(G) 在 EV 来源的AACT 低表型中富集的相关途径的Enrichment Map 网络分析。
(H)STRING 数据库分析揭示了AACT 与富集通路中涉及的关键蛋白之间的潜在相互作用。
图6:scRNA-seq 分析显示CRC 上皮细胞是EV 衍生的PF4 和AACT 产生的主要来源
(A)
通过 GEO:GSE132465 数据集的单细胞RNA 测序
(scRNA-seq)
分析, UMAP 图显示CRC (n =
23) 和正常 (n =
10) 组织中的细胞类型不同。
(B)Dot plot 图显示了GEO:GSE132465数据集中正常和 CRC组织中 PF4 和AACT 的表达。
(C)Violin plot图显示PF4 和 AACT在 GEO:GSE132465 数据集的正常和CRC 组织中的表达。
(D) 通过 GEO:GSE132257 数据集的scRNA-seq 分析,UMAP图显示 CRC(n = 5) 和正常 (n = 5) 组织中的细胞类型不同。
(E)Dot plot 图显示了 GEO:GSE132257 数据集中PF4 和 AACT的表达。
(F)Violin plot图显示了 GEO:GSE132257 数据集中PF4 和 AACT的表达。
(G和 H)50对癌旁组织和 CRC标本中 PF4(G) 和 AACT (H)IHC 染色的代表性图像和统计分析(放大400×)。比例尺:50 μm。
http://www.echobiotech.com/engineered-info/553.html
公司成立以来累计获得多轮数亿元融资,现已建成超 3000 平米的外泌体 GMP 生产车间,并与国内外上千家医院、科研院校及生物企业建立合作,合作发表论文200+篇,处理不同类型的样本4万+例,申报国内外发明专利30+件,获有“国家级专精特新小巨人企业”、“博士后科研工作站”、“国家高新技术企业”、“中关村金种子企业”、北京市知识产权试点单位”等荣誉。
公司致力于通过提供系统的外泌体研究与应用解决方案,赋能临床科研,加速产业转化,并通过持续的创新和严格的质量要求,让外泌体科技推动医学发展,造福美好生活!