原文公众号:CNHUPO
导 语
自十年前 "Proteoform" 诞生以来,它在蛋白质组研究领域的接受度和使用频率也越来越高。然而当初为何需要新造一词?它的出现能为蛋白质组学研究和交流中带来什么帮助?现在为大家介绍两篇由 Consortium for Top-Down Proteomics (CTDP))发表在 Nature Methods 上的文章,主要内容是关于蛋白质组学中的术语 "proteoform" 的定义和提出 "proteoform identification" 的分类。
Nature Methods | Proteoform: A Single Term Describing Protein Complexity & Nature Methods | A Five-level Classification System for Proteoform Identifications
在 2013 年的文章 Proteoform: A Single Term Describing Protein Complexity 中,作者提出,随着人类基因组计划的成功,人们认识到生物机制所提供的复杂性在很大程度上是由于在蛋白质水平上的变异,而不是大量的基因水平上的不同导致的。高度相关但化学性质不同的蛋白质分子之间的差异源于群体、细胞、组织类型以及亚细胞定位的差异。在 DNA、RNA 和蛋白质水平上,蛋白质的复杂性分别来自等位基因变异、RNA 转录物的选择性剪接和翻译后修饰。这些事件产生不同的蛋白质分子,调节各种各样的生物过程,例如:细胞信号传导、基因调控和蛋白质复合物的激活。
而随着质谱法在蛋白质组学中的应用,Top-Down、Bottom-Up 方法的开发,研究者们已经可以提供蛋白质的精确组成,然而如何使用合适的术语描述蛋白质的型体差异的问题久未解决。在文献中可以找到下列词汇:"protein forms","protein isoforms","protein species","protein variants" 以及蛋白质的 "mod forms"。这些词都存在着问题,例如在文献中常用的 "isoforms",根据国际纯粹与应用化学联合会(IUPAC)的定义,它只指在基因水平上差异导致的蛋白质的不同,而不包括在蛋白质水平上的变异。UniProt Knowledgebase(以基因为中心的权威蛋白质数据库)以不同的方式使用术语 "isoforms",它表示通过可选剪接或可变启动子,使用从同一基因产生的相关形式的蛋白质分子。但是由于遗传变化(例如,突变和多态性)不包括在这个术语中,这与IUPAC对 "isoforms" 的定义产生冲突。尽管 IUPAC 和 Uniprot 在定义上存在差异,"variants" 和 "isoforms" 在 IUPAC 中用于描述来自不同 DNA 或 RNA 的蛋白。因此,二者在定义修饰后的蛋白质上是混淆不清的。
因此,作者建议使用术语 "proteoform" 来指定单个基因的蛋白质产物的所有不同的分子形式,包括由于遗传变异、RNA 转录物的选择性剪接和翻译后修饰引起的变化。任何基因或蛋白质加工事件,如使用内部蛋白或 RNA 编辑机制的事件,都被术语 "proteoform" 清楚地涵盖了。该术语应包括 PSI-MOD 中的所有翻译后修饰,但归类为试剂衍生物或同位素标记残基的修饰除外。多基因家族的蛋白质产物应继续以序列一致性为基础进行分类(如>90%, >99%等)。这个术语与作者支持的以基因为中心的方法是一致的,因为将不同基因的产生的蛋白质分在一组,也会导致蛋白质鉴定的不精确。
在 2016 年发表的文章 A Five-level Classifcation System for Proteoform Identifcations 中,作者提到,在 2013 年引入的 “proteoform” 一词迅速得到了蛋白质组学界的认可。但是随着蛋白质组学的研究的发展,在当时另一个模糊的定义出现了——“proteoform identification”,即对于来自于单一基因产生的不同形式的蛋白质的鉴定。因为当时唯一实用的蛋白质组学方法是用质谱法(MS)来确定蛋白质的确切初级结构,而大量的质谱结果都声称为 "proteoform identification"。这个看似微不足道的问题具有重大的影响,因为 "proteoform identification" 的含义不清使得比较来自不同实验室和方法的结果变得困难。这种情况阻碍了研究者们对于技术进步的评价和对于生物知识的有效扩展。
为了解决这一问题,并协助研究人员表达研究结果中的模糊性,作者提出了一个 5 级的 proteoform 分类系统。该分类方案涵盖了 4 种可能出现的 "proteoform identification" 模糊类型:
(1)翻译后修饰(PTM)定位:PTM 没有定位到特定的氨基酸。
(2)PTM 识别:PTM 的鉴定不完全。
(3)氨基酸序列:氨基酸序列的鉴定不完全。
(4)基因:起源基因是未知的或模糊的。
这4个类别决定了鉴定中存在的模糊程度,从完全没有(第1级)到所有4种类型都存在(第5级)。(见表1)
表1. proteoform 水平的分类系统
第 1 级:proteoform 的鉴定完全,对其起源基因有充分的了解,确定了完整的氨基酸序列,并且已知所有 PTMs 和其位置(如果存在的话)。第 2 级:在上述模糊性的一种类别中存在 1 种。这方面的例子包括:2A 级,其中氨基酸序列已完全确定,并了解其起源基因,所有 PTMs 已完全确定,但其定位不完整。2B 级,氨基酸序列完全确定,知道其起源基因,并且 PTM 的定位是完整的,但 PTM 或结构特征(例如,乙酰化与三甲基化或糖蛋白形态)没有完全鉴定。2C 级,如果存在,所有PTM都被识别和定位,但存在一些序列鉴定不完整(例如,在一个小区域内氨基酸的序列未知),但仍然知道其基因的起源。2D 级,氨基酸序列完全确定,所有 PTM 都被完全识别和定位,但是关于基因起源存在歧义。第 3 级:存在 2 种上述的模糊类型。第 4 级:存在 3 种上述的模糊类型。第 5 级:获得的信息不足,无法知道该蛋白质源自哪个基因、其序列是什么、PTMs 或其定位;只有观察到的 proteoform 的分子量是已知的。
作者在这里提出的分类系统可以将不同结果水平的 "proteoform identification" 区分开,但有意不提出每个研究者发表的结果的置信度相关问题。理想情况下,每一种 proteoform 的鉴定都应该伴随着分类水平和置信度度量。早期估计 "proteoform identification" 可信度的努力包括 C-score 和 MIScore,但需要进一步的工作来开发和完善估计,以便能够可靠地自动分配 proteoform 水平。
总结,作者分别在 2013 年和 2016 年提出了 "proteoform" 的定义和"proteoform identification" 的分类系统,并且认为 "proteoform" 具有很高的使用意义,有助于提高蛋白质组学领域的出版物的可读性和理解性。同时,推荐使用文中提到的 5 级分类系统,因为它的一致性将有助于研究结果发表、评价和提升不同的鉴定方法以及推进蛋白质组学的发展。
DOI https://doi.org/10.1038/s41592-019-0573-x
束 语
随着更多新造词术语在学界的引入,如何对它们进行合适的中文翻译、避免概念混淆,已成为中文交流语境下值得关切的问题。欢迎大家关注本公众号的后续讨论。
撰稿:李孟效
编辑:李惠琳,王冠博,周默为,梁玉
“
CNHUPO Top-Down
蛋白质组学工作组
李惠琳 王冠博 田志新 梁玉 周默为
如对后续话题有相关建议,
请与周默为(moweizhou@zju.edu.cn)联系。