Cancer Cell | 泛癌分析相关蛋白质基因组学数据与资源

文摘科学 2024-10-27 22:58 北京

研究背景

全面的分子水平分析正在彻底改变癌症研究。由癌症基因组图谱（TCGA）和国际癌症基因组联盟（ICGC）生成的数以万计的肿瘤基因组目录极大地加深了科研人员对驱动肿瘤发生的突变的理解。由于蛋白质是负责代谢、信号传导和结构的主要分子，因此全面和定量的蛋白质测量是表型表征的重要组成部分。

临床肿瘤蛋白质组分析联盟（CPTAC）是由美国国家癌症研究所（National Cancer Institute，NCI）发起的一个项目，旨在通过大规模的蛋白质组和基因组分析，即蛋白质基因组学（proteogenomics），来加速对癌症分子基础的理解。CPTAC的目标是通过系统地识别和描述肿瘤组织和正常组织中的全部蛋白质，以及它们的翻译后修饰，来提高对癌症的诊断、治疗和预防能力。

2023年8月，CPTAC团队在Cancer Cell（IF：41.17）杂志上发表了题为“Proteogenomic data and resources for pan-cancer analysis”研究论文。为了促进泛癌症研究，研究对10个队列中超过1000个肿瘤的基因组、转录组、蛋白质组和临床数据进行了统一，为科学发现创建了一个具有凝聚力的强大数据集。文章还讨论了多组学数据整合和分析所面临的挑战，特别是核苷酸测序和质谱蛋白质组学数据工作所面临的独特挑战。

主要成果

CPTAC数据集目前包括10个癌症队列，这些队列是前瞻性收集的肿瘤，并进行了基因组学、转录组学、蛋白质组学和磷酸化蛋白质组学分析（图1）。针对选定的癌症类型生成了其他蛋白质翻译后修饰（PTM）数据，例如乙酰化和糖蛋白质组学。图2显示了性别、年龄、肿瘤等级、肿瘤分期、吸烟史和复发状况的分布。

图1 CPTAC泛癌数据集的肿瘤类型和数据类型

因此，为了实现全癌症综合分析，并保证一致性和可重复性，研究创建了一个数据集汇总，其中所有蛋白质组数据都经过了重新处理。为了促进数据重用并服务于广大癌症数据使用者，研究提出了数据协调的计算方法和多种传播机制来共享原始数据和处理后的数据（图2）。

图2 CPTAC数据集的人口统计数据

美国癌症研究所数据共享中心

基因组数据共享中心（GDC，https://portal.gdc.cancer.gov）和蛋白质组数据共享中心（PDC，https://pdc.cancer.gov）是美国国家癌症研究所（NCI）云资源，用于协调癌症研究的基因组学和蛋白质组学数据的存储和分析。CPTAC计划生成的蛋白质组学数据通过GDC和PDC公开传播，GDC和PDC根据其内部流程托管原始数据和处理后的数据。作为NCI云资源的组成部分，GDC和PDC与其他NCI研究数据共享资源（例如癌症成像档案（TCIA https://www.cancerimagingarchive.net/））完全集成，促进基于云的蛋白质组学、基因组学和成像数据分析。

PDC主要由CPTAC项目推动，通过强大的数据模型组织数据，以保持数据和相关元数据的一致性和完整性，并提供一个界面来过滤、查询、搜索和可视化蛋白质组学数据。存储在蛋白质组数据共享中的协调数据表的直接链接是https://pdc.cancer.gov/pdc/cptac-pancancer。

来自多个分析流程的数据

蛋白质组学和基因组学数据分析方法不断发展，并且存在各种软件工具来将原始数据处理为可用于下游分析的形式（例如RNA或蛋白质丰度矩阵）。由于CPTAC由对每种数据类型都具有专业知识的多个团队组成，因此研究经常使用多个流程分析数据。将不同的工具应用于同一组数据可能会导致不同的结果，有时甚至会产生不同的结论。因此，基准测试对于工具评估和选择非常重要。

为了比较不同的蛋白质组学数据定量流程，研究开发了OmicsEV，它使用十多个评估指标来全面评估数据深度、数据标准化、批次效应、生物信号、平台可重复性和多组学一致性。在CPTAC中心使用的公开工具中，FragPipe流程通常提供更高的数据深度，同时保持其他指标的相似或更好的性能。使用三个深度学习得出的特征作为评估指标（预测的磷酸位点概率、观察到的和预测的RT之间的绝对保留时间[RT]差异以及观察到的和预测的光谱之间的皮尔逊相关系数），研究进一步发现与其他测试流程相比，FragPipe在磷酸肽鉴定和磷酸位点定位方面具有更高的灵敏度和质量。

编程数据访问

为了简化数据访问可以显著消除使用的障碍，提高透明度和可重复性。因此，CPTAC创建了一个软件包，将最终的定量数据表作为数据框变量直接传输到编程环境中（图3）。Python应用程序编程接口（API）最初从单个癌症类型出版物中传输数据，现已更新为提供对先前描述的统一泛癌症数据集的访问。由于数据是在原生pandas数据框中传输的，因此它们很容易与常见的机器学习和可视化包（如SciKit-learn、PyTorch、Plotly、Seaborn等）集成。此外，使用reticulate包进行Python/R相互转换，在R中访问此API也很简单。使用教程与说明详见See http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html。

图3 使用API传输数据

用于数据可视化和分析的Web门户网站

CPTAC团队已经创建了多个用于可视化和探索泛癌症蛋白质组学数据的Web门户（图4）。每个网站都从数据汇编中提取了适合泛癌症分析的数据集。

图4 CPTAC数据的Web门户

PepQuery

癌症基因组研究发现了许多可能导致异常蛋白质的基因组改变，这些异常蛋白质是癌症生物标志物、药物靶标和新抗原的有希望的候选者。在蛋白质水平上验证它们的表达是将这些发现转化为临床的关键一步。

PepQuery（http://www.pepquery.org）允许使用MS/MS数据快速轻松地对基因组畸变进行蛋白质组学验证，例如单核苷酸突变（SNV）、插入和缺失（INDEL）、RNA编辑位点、新连接、融合和新转录区域。团队最近引入了一种新的数据索引算法来提高搜索速度，并扩展了PepQuery网络服务器中的数据集集合以包含来自所有10个CPTAC研究的MS/MS数据，这使MS/MS光谱的总数增加到十亿以上。通过PepQuery网络服务器和PDC的镜像站点（https://pdc.cancer.gov），用户可以使用新的肽或感兴趣的DNA序列直接查询CPTAC和其他MS/MS数据，以寻找支持肽谱匹配（PSM）。此外，独立版本和Galaxy Proteomics平台（https://proteomics.usegalaxy.eu/）中PepQuery的实现支持批量分析和用户提供的MS/MS数据，并且可以使用PDV将识别结果可视化。

LinkedOmics和LinkedOmicsKB

LinkedOmics（http://www.linkedomics.org）是一个数据分析门户，它允许使用来自TCGA和CPTAC的癌症多组学数据来表征任何感兴趣的临床或分子特征（例如生存率、BRAF_V600E突变、miR200c表达或CHEK2-S422磷酸化）。团队现在为LinkedOmics中的所有CPTAC队列提供本文所述的全癌症协调数据集。对于每项CPTAC研究，数据库存储了超过500,000个属性的数据，包括临床属性、位点和基因水平的突变、区域和基因水平的拷贝数变异、位点和基因水平的甲基化、mRNA表达、miRNA表达、蛋白质表达以及位点和蛋白质水平的PTM。使用三个分析模块（包括LinkFinder、LinkCompare和LinkInterpretor），可以挖掘这些数据以揭示遗传改变的后果、描述基因和PTM的功能以及揭示癌症表型的分子基础。

LinkedOmics中的即时、用户定义的数据查询为分析CPTAC数据提供了高度的灵活性，但即时执行数据分析非常耗时，并且整合和共同可视化来自多种癌症类型和多种组学数据类型的结果仍然具有挑战性。为了应对这些挑战，团队进一步开发了LinkedOmicsKB，这是一个新的知识门户，它使单个基因和表型的预计算结果可以通过单个查询轻松获得。查询基因或表型的所有结果都显示在单个页面上，并具有用户友好的可视化功能，便于理解。知识门户可https://kb.linkedomics.org上找到。

PTMcosmos

PTMcosmos是一个交互式网络门户，旨在对人类的PTM进行分类和可视化。作为蛋白质活性的关键调节器，PTM在了解癌症和失调的细胞状态方面发挥着至关重要的作用。所有CPTAC研究中检测到的PTM位点都使用蛋白质序列进行协调。来自UniProt审查的蛋白质组，允许整合来自许多成熟数据库的大量注释，包括UniProt知识库、PhosphoSitePlus和蛋白质3D结构。

总的来说，研究协调了210,112个PTM位点并用11,265篇出版物对其进行注释。此外，为了研究癌症中发现的基因改变与空间上接近的PTM之间的关系，团队纳入了在CPTAC和TCGA样本中检测到的癌症体细胞突变。最后，团队开发了交互式可视化工具，让研究人员能够探索有关PTM位点的现有文献、肿瘤和正常样本之间的丰度差异以及蛋白质结构上的PTM突变。PTMcosmos门户网站在https://ptmcosmos.wustl.edu/上公开。

ProTrackPath: pan-cancer portal

团队开发了一个Web应用程序，用于访问泛癌症队列中的通路富集分数。虽然之前的ProTrack应用程序允许用户可视化单个癌症的标准化原始数据，但ProTrackPath泛癌症门户网站提供了跨癌症类型的通路富集分数，这些分数是通过单个样本基因集富集分析（ssGSEA）计算得出的。用户指定一个通路数据库，例如Hallmark、KEGG、或Reactome，然后选择一组要可视化的通路。然后生成一个交互式热图，用户可以通过根据任何给定的轨迹进行排序或打开和关闭分类变量来自定义该热图。此外，门户网站还包括一个示例仪表板视图，可用于查看临床特征。这允许用户以条形图的形式探索癌症类型的分布以及各种人口统计和临床特征。用户可以通过切换每个条形图的交互式图例中的功能来过滤样本，然后用他们自定义生成的队列填充热图。该门户网站向公众开放，网址为http://pancan.cptac-dataview.org/。

NGlycositeAtlas portal

N连接糖基化是最丰富的蛋白质修饰之一，与癌症的疾病进展高度相关。随着实验和计算方法的进步，糖蛋白质组学提供了对糖蛋白糖基位点特异性糖基化的全面表征，并对其在癌症中的生物学功能提供了宝贵的见解。然而，仍然缺乏对来自不同癌症类型的糖蛋白质组学数据的大规模表征以用于泛癌症研究。研究鉴定了完整的N连接糖肽以创建一个名为N-GlycositeAtlas 2.0的数据库资源，它包含来自CPTAC的2,000多种糖蛋白的90,629多个完整的N连接糖肽（代表5,665个含N连接糖基位点的肽）。NGlycositeAtlas数据库和一致的MS/MS光谱可在https://www.biomarkercenter.org/nglycositeatlas上找到。

泛癌症多组学的分析挑战

随着分子测量技术的快速发展，癌症数据集已变得多模态化。CPTAC创建了丰富的蛋白质组学数据集，用于测量肿瘤和邻近正常组织（NAT）内的DNA、RNA和蛋白质分子。这种数据多样性记录了细胞状态的综合图谱，为研究人员提供了了解导致信号网络失调的DNA突变事件与最终细胞表型之间的微妙调控相互作用的机会。这个庞大而全面的数据集在数据集成和解释方面提出了一些挑战。在本节中，文章概述了蛋白质组学数据再利用和再分析的几个重要注意事项。

蛋白质组学数据集中的第一个挑战是确保标识符协调一致。以下示例展示了这一挑战。由于可变剪接，许多基因具有多种蛋白质异构体，包括癌症中剪接模式的显著变化。每种异构体可能都有独特的功能，将所有数据组合成一个“基因水平”测量可能会掩盖这些差异。假设mRNA数据识别两个不同的转录本。因此，转录组学数据表报告两个数据库标识符，每个标识符都有单独的定量值。如果蛋白质组学数据没有识别出区分两种异构体的肽，应该使用哪个蛋白质标识符？应该将蛋白质丰度与哪个转录本数据进行比较？作为正交数据类型，蛋白质组学和转录组学经常识别不同的异构体。这种情况在整合PTM、突变或表观遗传学时同样复杂。如果观察到磷酸化或编码突变，它应该与哪种蛋白质异构体相关？与甲基化数据相比，应该使用哪种转录本/蛋白质？将PTM和编码突变映射到不同的蛋白质异构体将使研究体细胞突变对PTM的影响变得困难。

因此，对于本文介绍的大型多组学协调任务，研究团队建议在报告分析方法时要仔细考虑并保持透明。作为缓解上述挑战的潜在解决方案，建议如下：（1）使用相同版本的基因组组装和基因注释来处理来自所有组学平台和所有癌症类型的数据；（2）当异构体水平分析不切实际时报告基因水平量化；（3）当需要代表性异构体选择但数据与异构体无关时，应用一致且透明的代表性异构体选择规则，例如磷酸位点定位注释。

随着细胞和组织的分子表征变得更加完整，第二个挑战是接受完整的蛋白质组学全景。研究团队强调每种数据类型都具有独特的价值，有助于阐明复杂的表型。例如，蛋白质组和转录组是不同的，每个都提供了对细胞过程的有意义的观察。大量研究表明，mRNA和蛋白质丰度的相关性通常比预期的要差，这是翻译和翻译后调控的结果。由于癌症通常以调节功能障碍为特征，因此最好通过结合转录组学和蛋白质组学来探索这种功能障碍的根源。同样，最好通过结合基因组学和磷酸化蛋白质组学来观察激酶体细胞突变的结果。

尽管研究付出了巨大努力来协调不同癌症研究中的多组学数据集，但团队想强调的是，由于技术因素（因为不同癌症类型的组学实验是由不同的实验室和/或使用不同的平台进行的）和生物因素（因为不同的器官和癌症类型具有本质上不同的生物学），不同癌症类型之间的“批次”效应仍可能存在于泛癌症数据集中。因此，在分析泛癌症数据时，需要仔细调整不同癌症类型之间的这些批次效应。例如，在拟合回归模型以研究分子丰度对其他属性的依赖性时，可以将癌症类型指标作为协变量，以解释特定于癌症类型的分子平均值。其他分析技术（如荟萃分析框架）也可用于执行泛癌症水平推断。

总结

泛癌症蛋白质组学数据分析需要使用统一的流程对所有样本进行一致的数据集处理。多个研究小组已经创建了癌症队列的蛋白质组学数据集，探索常见癌症、儿童肿瘤或研究不足的肿瘤类型的不同遗传背景。对于泛癌症分析，重要的是各个数据集遵循类似的SOP并以一致的方式处理数据。因此，研究团队重新处理了CPTAC的10个癌症队列的数据，以创建泛癌症蛋白质组学数据集。文章介绍了用于创建此数据汇编的方法、数据访问方法以及泛癌症多组学数据分析的关键考虑因素。该资源已在CPTAC内用于各种主题下的生物学发现。团队希望这也能成为更广泛的癌症研究界的资源，以推进癌症的诊断和治疗。

原文链接：https://www.cell.com/cancer-cell/fulltext/S1535-6108(23)00219-2?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS1535610823002192%3Fshowall%3Dtrue

参考文献

Li, Yize et al. “Proteogenomic data and resources for pan-cancer analysis.” Cancer cell vol. 41,8 (2023): 1397-1406. doi:10.1016/j.ccell.2023.06.009

编译：慕白

校对：Evan Flle

排版：花城诚成

封面来源：Freepik

往期推荐

Nat Med | 血浆蛋白质组学助力常见与罕见疾病风险预测

2024-09-22

旦生医学 | 工业化智能蛋白芯片助力新发传染病全周期应对能力建设

2024-09-16

Nature Aging〡英国生物样本库中主要突发疾病和死亡率的血液蛋白评估

2024-09-15

Adv.Sci.∣国家蛋白质科学中心于晓波联合团队揭示新冠-宿主群体疫苗免疫协同进化规律和防护策略

2024-09-01

旦生医学智能蛋白芯片技术在新冠疫苗群体免疫进化大队列研究中获得突破

2024-09-04

了解更多蛋白芯片、组学进展请关注下方名片

关于旦生医学

旦生医学（ProteomicsEra Medical Co.,Ltd,）是集高端分子芯片设计、研发、生产和应用为一体的生物医药高科技企业，由留学归国高层次人才创立。企业目标是通过国际前沿生命组学、分子芯片和人工智能技术获取和解析人体健康密码（标志物），开发下一代高通量、智能化临床检测试剂、设备和蛋白药物，为人类的健康保障、疾病预防、检测和治疗提供产品、技术和咨询服务，联系方式：010-85885591，18601967980。

本文来源于公开发表论文，仅供学习交流，不构成商业目的。转载需注明来源芯医学。投稿与合作请留言或联系我们(xinyixue2022@126.com)。

http://mp.weixin.qq.com/s?__biz=Mzg2NTc5MDI1OA==&mid=2247556381&idx=1&sn=acea2d1cbc6bd145534a2ef3d4ef635e

芯医学

介绍蛋白芯片和前沿组学技术在精准医学、生物标志物、体外诊断和药物研发中的应用进展，相关产品、会议和产业热点。