转载|大话 TopDown：“Proteoform”一词的前世今生

文摘 2024-01-11 13:38 广东

原文公众号：CNHUPO

作者：CNHUPO Top-Down蛋白质组学工作组

李惠琳王冠博田志新梁玉周默为

导语

自十年前 "Proteoform" 诞生以来，它在蛋白质组研究领域的接受度和使用频率也越来越高。然而当初为何需要新造一词？它的出现能为蛋白质组学研究和交流中带来什么帮助？现在为大家介绍两篇由 Consortium for Top-Down Proteomics （CTDP)）发表在 Nature Methods 上的文章，主要内容是关于蛋白质组学中的术语 "proteoform" 的定义和提出 "proteoform identification" 的分类。

Nature Methods | Proteoform: A Single Term Describing Protein Complexity & Nature Methods | A Five-level Classification System for Proteoform Identifications

在 2013 年的文章 Proteoform: A Single Term Describing Protein Complexity 中，作者提出，随着人类基因组计划的成功，人们认识到生物机制所提供的复杂性在很大程度上是由于在蛋白质水平上的变异，而不是大量的基因水平上的不同导致的。高度相关但化学性质不同的蛋白质分子之间的差异源于群体、细胞、组织类型以及亚细胞定位的差异。在 DNA、RNA 和蛋白质水平上，蛋白质的复杂性分别来自等位基因变异、RNA 转录物的选择性剪接和翻译后修饰。这些事件产生不同的蛋白质分子，调节各种各样的生物过程，例如：细胞信号传导、基因调控和蛋白质复合物的激活。

而随着质谱法在蛋白质组学中的应用，Top-Down、Bottom-Up 方法的开发，研究者们已经可以提供蛋白质的精确组成，然而如何使用合适的术语描述蛋白质的型体差异的问题久未解决。在文献中可以找到下列词汇："protein forms"，"protein isoforms"，"protein species"，"protein variants" 以及蛋白质的 "mod forms"。这些词都存在着问题，例如在文献中常用的 "isoforms"，根据国际纯粹与应用化学联合会（IUPAC）的定义，它只指在基因水平上差异导致的蛋白质的不同，而不包括在蛋白质水平上的变异。UniProt Knowledgebase（以基因为中心的权威蛋白质数据库）以不同的方式使用术语 "isoforms"，它表示通过可选剪接或可变启动子，使用从同一基因产生的相关形式的蛋白质分子。但是由于遗传变化（例如，突变和多态性）不包括在这个术语中，这与IUPAC对 "isoforms" 的定义产生冲突。尽管 IUPAC 和 Uniprot 在定义上存在差异，"variants" 和 "isoforms" 在 IUPAC 中用于描述来自不同 DNA 或 RNA 的蛋白。因此，二者在定义修饰后的蛋白质上是混淆不清的。

因此，作者建议使用术语 "proteoform" 来指定单个基因的蛋白质产物的所有不同的分子形式，包括由于遗传变异、RNA 转录物的选择性剪接和翻译后修饰引起的变化。任何基因或蛋白质加工事件，如使用内部蛋白或 RNA 编辑机制的事件，都被术语 "proteoform" 清楚地涵盖了。该术语应包括 PSI-MOD 中的所有翻译后修饰，但归类为试剂衍生物或同位素标记残基的修饰除外。多基因家族的蛋白质产物应继续以序列一致性为基础进行分类（如>90%， >99%等）。这个术语与作者支持的以基因为中心的方法是一致的，因为将不同基因的产生的蛋白质分在一组，也会导致蛋白质鉴定的不精确。

在 2016 年发表的文章 A Five-level Classifcation System for Proteoform Identifcations 中，作者提到，在 2013 年引入的 “proteoform” 一词迅速得到了蛋白质组学界的认可。但是随着蛋白质组学的研究的发展，在当时另一个模糊的定义出现了——“proteoform identification”，即对于来自于单一基因产生的不同形式的蛋白质的鉴定。因为当时唯一实用的蛋白质组学方法是用质谱法（MS）来确定蛋白质的确切初级结构，而大量的质谱结果都声称为 "proteoform identification"。这个看似微不足道的问题具有重大的影响，因为 "proteoform identification" 的含义不清使得比较来自不同实验室和方法的结果变得困难。这种情况阻碍了研究者们对于技术进步的评价和对于生物知识的有效扩展。

为了解决这一问题，并协助研究人员表达研究结果中的模糊性，作者提出了一个 5 级的 proteoform 分类系统。该分类方案涵盖了 4 种可能出现的 "proteoform identification" 模糊类型：

（1）翻译后修饰（PTM）定位：PTM 没有定位到特定的氨基酸。

（2）PTM 识别：PTM 的鉴定不完全。

（3）氨基酸序列：氨基酸序列的鉴定不完全。

（4）基因：起源基因是未知的或模糊的。

这4个类别决定了鉴定中存在的模糊程度，从完全没有(第1级)到所有4种类型都存在(第5级)。（见表1）

表1. proteoform 水平的分类系统

第 1 级：proteoform 的鉴定完全，对其起源基因有充分的了解，确定了完整的氨基酸序列，并且已知所有 PTMs 和其位置(如果存在的话)。第 2 级：在上述模糊性的一种类别中存在 1 种。这方面的例子包括：2A 级，其中氨基酸序列已完全确定，并了解其起源基因，所有 PTMs 已完全确定，但其定位不完整。2B 级，氨基酸序列完全确定，知道其起源基因，并且 PTM 的定位是完整的，但 PTM 或结构特征（例如，乙酰化与三甲基化或糖蛋白形态）没有完全鉴定。2C 级，如果存在，所有PTM都被识别和定位，但存在一些序列鉴定不完整（例如，在一个小区域内氨基酸的序列未知），但仍然知道其基因的起源。2D 级，氨基酸序列完全确定，所有 PTM 都被完全识别和定位，但是关于基因起源存在歧义。第 3 级：存在 2 种上述的模糊类型。第 4 级：存在 3 种上述的模糊类型。第 5 级：获得的信息不足，无法知道该蛋白质源自哪个基因、其序列是什么、PTMs 或其定位;只有观察到的 proteoform 的分子量是已知的。

作者在这里提出的分类系统可以将不同结果水平的 "proteoform identification" 区分开，但有意不提出每个研究者发表的结果的置信度相关问题。理想情况下，每一种 proteoform 的鉴定都应该伴随着分类水平和置信度度量。早期估计 "proteoform identification" 可信度的努力包括 C-score 和 MIScore，但需要进一步的工作来开发和完善估计，以便能够可靠地自动分配 proteoform 水平。

总结，作者分别在 2013 年和 2016 年提出了 "proteoform" 的定义和"proteoform identification" 的分类系统，并且认为 "proteoform" 具有很高的使用意义，有助于提高蛋白质组学领域的出版物的可读性和理解性。同时，推荐使用文中提到的 5 级分类系统，因为它的一致性将有助于研究结果发表、评价和提升不同的鉴定方法以及推进蛋白质组学的发展。

原文

Proteoform: a single term describing protein complexity | Nature Methods

DOI https://doi.org/10.1038/nmeth.2369

A five-level classification system for proteoform identifications | Nature Methods

DOI https://doi.org/10.1038/s41592-019-0573-x

束语

随着更多新造词术语在学界的引入，如何对它们进行合适的中文翻译、避免概念混淆，已成为中文交流语境下值得关切的问题。欢迎大家关注本公众号的后续讨论。

撰稿：李孟效

编辑：李惠琳，王冠博，周默为，梁玉

“

CNHUPO Top-Down

蛋白质组学工作组

李惠琳王冠博田志新 梁玉周默为

如对后续话题有相关建议，

请与周默为（moweizhou@zju.edu.cn）联系。

http://mp.weixin.qq.com/s?__biz=Mzg2MjAxNDk5OA==&mid=2247486512&idx=1&sn=f47d57a62b0b924f2df7116a85aac54a

李惠琳课题组

推介Top-down MS原理、新技术、新方法以及相关结构质谱方法及其在翻译后修饰调控机制、蛋白-药物相互作用、蛋白质机器结构及功能解析等领域的前沿文献与工作交流。

最新文章

J. Am. Soc. Mass Spec.|使用DPS评估HDX-MS中的蛋白酶切效率

Anal Bioanal Chem.| 基于质子转移电荷还原技术实现抗体自中而下分析的通用方法

Proteomics. |SDS-PAGE与CZE-MS相结合，用于组蛋白proteoform的Top-down分析

Anal. Chem.｜Taylor – Aris扩散辅助质谱法分析天然蛋白质

Nat. Struct. Mol. Biol.｜核糖体上蛋白质折叠的共翻译路径

J. Am. Soc. Mass. Spec.｜非变性和变性的自上而下质谱用于单克隆抗体的鉴定

Nature Communications|基于深度学习的糖肽碎片质谱预测

J. Am. Soc. Mass Spec.|使用Native MS和HDX-MS探究高阶蛋白复合物结构

香港理工大学蛋白质组学课题组诚招两名2025年博士研究生

Anal. Chem.｜一次性单细胞蛋白质组和代谢组同步分析策略

Nat. Commun.｜使用非数据依赖采集法实现氢/氘交换质谱数据自动化分析

J. Am. Soc. Mass. Spec.｜一种在线的Native MS方法用于腺相关病毒衣壳含量比率的快速、灵敏和定量评估

第三届JPrOS自上而下蛋白质组学线上研讨会

Nature Reviews Methods Primers|Top-Down 蛋白质组学

Anal. Chem.|循环离子淌度用于氢氘交换质谱

Anal. Chem.｜Panda-UV解锁紫外光解（UVPD）质谱产生的内部碎片

Anal. Chem. |通过平行代谢物提取和高分辨率质谱对人体心脏组织进行全面的代谢组学分析

J. Am. Chem. Soc.｜利用HDX-MS分析糖原磷酸化酶的瞬时态的结构动力学

Anal. Chem.｜循环离子迁移-质谱和串联碰撞诱导去折叠技术用于定量难以捉摸的蛋白质生物标志物

J. Am. Soc. Mass Spectrom|基于电子转移解离的蛋白质组学中分子内氢重排的实际影响

J. Proteome Res. 丨PepPre：利用准确和全面的前体离子信息提升多肽鉴定

Mol. Cell. Proteomics丨利用AlphaFold2与交联质谱建模柔性蛋白质结构

Anal. Chem.丨小型连续尺寸排除色谱（s3SEC）用于高灵敏度自上而下蛋白质组学检测高质量Proteoforms

J. Am. Soc. Mass Spec.|PNGase Rc色谱柱用于氢氘交换质谱中复杂糖蛋白的在线去糖基化

转载|大话 TopDown：“Proteoform”一词的前世今生

Nat. Commun. | 非变性纳米蛋白质组学捕获内源性心肌肌钙蛋白复合物的结构和动态性信息

J. Am. Chem. Soc.｜μMap光催化临近标记支持小分子结合位点映射

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉