Mol Cell Proteomics│基于组织的肝癌蛋白质组图谱研究

文摘   科学   2024-08-04 14:56   北京  


研究背景

肝癌是全球癌症死亡的主要原因之一。肝癌主要包括肝细胞癌(HCC),肝内肝管癌(CCA)以及混合型肝癌(MCA)三种病理学类型。原发性HCC是最常见的原发性肝脏恶性肿瘤,占肝脏恶性肿瘤的80%以上;CCA是第二常见的原发性肝脏恶性肿瘤,占肝脏恶性肿瘤的10%~15%;MCA在原发性肝脏恶性肿瘤中所占的比例较小。HCC和CCA在发病机制,生物学行为等方面存在显著差异,虽然两者在肿瘤生物学方面得到广泛的研究,但对HCC和CCA的分子特征仍缺乏全面和系统的了解。 本研究中,作者基于数据独立采集质谱(DIA-MS)技术表征了HCC和CCA的蛋白质组学图谱。


2023年6月,西湖大学的朱怡以及郭天南研究团队在Molecular & Cellular ProteomicsIF6.1)期刊上发表了“Proteome Landscapes of Human Hepatocellular Carcinoma and Intrahepatic Cholangiocarcinoma”研究论文。本研究中作者基于质谱技术对HCC和CCA的蛋白质组图谱进行表征,揭示了两者之间不同的生物学特征。













主要成果

1.通过对HCC和CCA进行差异蛋白质组分析,作者发现HCC中的脂质代谢异常以及CCA中细胞外基质相关的通过活化。
2.作者开发了一个三蛋白分类器来区分CCA和HCC,验证队列中的AUC值为0.92,准确性达到90%。

研究设计

【样本队列】
训练队列(n=56):41例HCC、12例CCA和3例MCA患者的组织样本及其癌旁组织;
验证队列(n=51):34例HCC和17例CCA患者的组织样本及其癌旁组织。
实验设计】
(1)基于DIA质谱技术对HCC和CCA组织样本进行蛋白质组学分析。
(2)作者使用定量蛋白质组学数据来探索HCC和CCA患者的肿瘤和良性样本之间的差异。
(3)构建机器学习分类模型来区分CCA和HCC肿瘤。

图1 实验设计及工作流程


研究结果

DIA-MS数据分析及质量控制

作者对队列1中56例肝癌样本及其癌旁组织进行DIA-MS分析,同时为了减少批次效应,在样品制备和质谱采集过程中,所有样品都被随机编号。另外,为了质量控制,从112份样本中随机抽取26份作为技术重复。本研究中,作者使用三种软件(Spectronaut,DIA-NN ,EncyclopeDIA)来处理DIA数据,但由于算法的差异,同一数据集使用不同的软件工具解析得到的定量结果存在部分差异。作者通过DIA工具鉴别了104489种多肽,量化了8057种蛋白型蛋白(图2A,B)。其中,34214个多肽和4348个蛋白型蛋白被三个DIA软件工具一致地定量。


为了评估质谱数据的质量,作者计算了三种软件工具生成的每对技术重复的蛋白质强度之间的Pearson相关系数(Pearson r)和变异系数(CV)。结果表明,26个技术重复在所有三个DIA软件工具中显示出强相关性(Pearson r>0.9)图2C)和低CV值(中位数CV~2%)图2D)。这些结果表明数据的高度可重复性。

图2 DIA质控数据分析


作者进一步评估了使用不同DIA软件工具生成的定量蛋白质组的相关性。结果表明,在肽和蛋白质定量水平上,DIA-NN与Spectronaut的相关性最强(Spearman r>0.8)图2E,F)。PCA结果显示,所有患者的肿瘤组织及邻近良性组织均可明显聚为两组(图2G-I)。其中DIA-NN软件具有更好的稳定性,因此后续分析中,作者使用DIA-NN来进行蛋白质定量。

HCC与CCA不同的蛋白质组图谱和特征

为了确定每种肝脏肿瘤类型特异性表达的蛋白质,作者在肿瘤和良性组织的数据之间进行了差异表达分析(|log2(FC)|>0.5,adjusted p-value<0.05)。与邻近良性组织相比,HCC样本中共有3378种蛋白显著失调其中87%的蛋白在肿瘤样本中上调(图3A)。IPA(ingenuity pathway analysis)通路富集分析表明,这些活化的通路主要包括转录、mRNA翻译调控和翻译后修饰(图3B)。


后作者分析了CCA数据集。与相邻良性组织相比,CCA样本中共有820个蛋白显著失调。与HCC不同的是,CCA肿瘤组织中大部分被调控的蛋白(820个蛋白中的97%)下调(图3C)。这些蛋白的IPA富集表明,CCA组织中大部分被调控的通路被抑制。这些途径主要与肝脏代谢过程相关,如氧化磷酸化、脂肪酸β-氧化I、血清素降解、缬氨酸降解I和异种代谢PXR信号(图3D)。


图3 肿瘤组织的差异表达分析


接下来,作者比较了HCC组和CCA组之间的差异表达蛋白。其中HCC和CCA肿瘤样本共有296个下调蛋白和17个上调蛋白(图3E)。然后,作者使用 Metascape对这些蛋白进行途径富集分析。296个下调蛋白主要参与与小分子代谢过程相关的途径(图3F);17个上调蛋白参与了系统进展、超分子纤维组织和蛋白质复合物寡聚化等过程。


为了研究HCC和CCA之间的差异,作者在HCC和CCA组织之间进行了基因集富集分析(GSEA)图3H)。其中细胞外基质(ECM)相关的信号通路在CCA肿瘤组织中显著富集。HCC中最显著的通路与脂质代谢相关(图3H)。


区分HCC、CCA与良性组织的关键蛋白

为了将组织样本分类为HCC、CCA或良性组织,作者使用随机森林特征选择确定了73个关键蛋白。基于73种蛋白对HCC、CCA和良性组织进行无监督聚类分析,结果显示大多数样本根据其病理类型聚类,表明这些蛋白可以用来区分三种组织类型(图4A)。此外,每个簇的蛋白质在特定的生物过程中富集:小分子代谢过程、脂质代谢过程和基膜组装过程(图4B)。图4C显示了前10种蛋白在HCC,CCA和良性组织中的变化情况。


图4 基于机器学习的HCC、CCA和良性组织分类


基于机器学习的HCC、CCA与肿瘤组织的分类

作者开发了一个区分HCC和CCA肿瘤的机器学习分类模型(图5A)。训练队列包含41例HCC和12例CCA患者。然后,作者根据随机森林的特征选择确认了前15种蛋白。为了确定最佳的蛋白质组,作者将训练队列划分为内部训练集(80%)和验证集(20%),并评估这些蛋白对于HCC和CCA的区分能力。其中,APOE,PKLR和GALK1三种蛋白具有最好的性能并基于这三种蛋白训练最终模型。该三蛋白分类模型在训练队列中的AUC为0.98,准确率为1,敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)分别为0.83、1、1和0.95(图5A、C、D和G)。


然后,作者在独立验证队列中评估了模型的性能,该队列包含34例HCC患者和17例CCA患者。结果表明AUC值为0.92,敏感性、特异性、PPV和NPV分别为0.89、0.94、0.89和0.94(图5A、F和G)。


图5 基于机器学习的HCC和CCA肿瘤组织分类


总结

本研究中,作者基于质谱技术对肝细胞癌(HCC)和肝内胆管癌(CCA)患者的组织样本进行蛋白质组学分析,并对蛋白质组图谱进行了表征。通过对HCC和CCA进行差异蛋白质组分析,作者发现HCC中的脂质代谢异常以及CCA中细胞外基质相关的通过活化。最后构建了一个区分HCC和CCA的蛋白分类器。该文章对于HCC和CCA的蛋白质组特征提供了基本见解。


原文链接:https://doi.org/10.1016/j.mcpro.2023.100604


参考文献


Yi X, Zhu J, Liu W, et al. Proteome Landscapes of Human Hepatocellular Carcinoma and Intrahepatic Cholangiocarcinoma. Mol Cell Proteomics. 2023;22(8):100604. doi:10.1016/j.mcpro.2023.100604



编译:小郭

对:Evan Flle

排版:花城诚成

封面来源:Freepik


往期推荐

Nat Commun | 血浆蛋白质组分析揭示双阻断剂疗法后胆固醇标志物的动态变化

2024-07-21

Alzhelmers Dement | 血液多指标生物标志物用于阿尔茨海默病的早期检测

2024-07-14

Nat Common | 纵向血浆蛋白质组学分析揭示结直肠癌诊断和西妥昔单抗治疗反应的生物标志物

2024-07-07

Nat.Med |脑脊液蛋白质组学揭示阿尔茨海默发病自然史

2024-06-29


了解更多蛋白芯片、组学进展请关注下方名片



关于旦生医学

旦生医学(ProteomicsEra Medical Co.,Ltd,)是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业,由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码(标志物),开发下一代高通量、智能化临床检测试剂、设备和蛋白药物,为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务,联系方式:010-85885591,18601967980。


本文来源于公开发表论文,仅供学习交流,不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。


芯医学
介绍蛋白芯片和前沿组学技术在精准医学、生物标志物、体外诊断和药物研发中的应用进展,相关产品、会议和产业热点。
 最新文章