“
点击蓝字 关注我们
王颖
中国药科大学副研究员,硕士生导师,博士。长期致力于探索非编码RNA及其编码的新型微肽在疾病发生发展中的作用机制,并利用高通量微肽筛选与验证技术平台发现疾病相关的新型微肽分子,开发原创多肽类新药,为疾病的诊疗提供新的策略,曾参与完成 2 个多肽新药的临床前开发并获新药临床批件 2 件。以第一作者在Signal Transduct Target Ther(IF:38.104)、 J Am Chem Soc( IF:16.383)、 Acta Pharm Sin B(IF:14.903)、Mol Ther Nucleic Acids(IF:10.183)、Cell Death Dis(IF:9.685)和Oncogene(IF:8.756)等国际一流学术期刊发表多篇论文;主持国家自然科学基金、博士后面上基金;申请中国发明专利 2 项,授权 1 项;获中国产学研合作创新成果奖二等奖、第六届江苏医药科技进步奖二等奖。
长链非编码RNA编码的微肽研究进展 PPS
张雪 , 李臣诚 , 王颖 *
(中国药科大学生命科学与技术学院,江苏 南京 211198)
[摘要] 长链非编码RNA(lncRNA)是由超过 200 个核苷酸构成的RNA分子,展现出相对较低的序列保守性,长期以来在生物学领域内被视为“转录噪声”,即无功能性的 RNA 分子。然而,近年来,随着研究的不断深入,科学家们揭示出在 lncRNA 中潜藏着许多小开放阅读框,其中部分能够编码微肽。这些微肽已被证实可参与多种细胞进程及基因表达调控网络,并扮演着至关重要的角色。这一发现为生命活动的进一步探索以及疾病的临床诊断与治疗开辟了新的研究方向。对 lncRNA 编码的微肽在病理与生理过程中的作用、微肽的亚细胞定位与功能机制,以及微肽研究方法的进展进行综述,旨在为新型微肽诊疗一体化药物的开发提供思路与参考。
在生物学领域,长链非编码RNA(long noncoding RNA, lncRNA)的研究一直是近年来的热点之一。作为基因组中占比高达98%的非蛋白质编码序列的重要组成部分,lncRNA曾一度被视为“转录噪声”,未受到足够重视[1-2]。然而,随着 DNA 元件百科全书(ENCODE)计划的深入研究和二代测序技术的发展,人们发现 lncRNA 可通过多种机制参与各种生命活动,调节关键的生物学过程,如介导转录激活、调控异染色质形成、结合小分子 RNA ( miRNA)等[3]。还有一些研究报道, lncRNA 可通过反式或顺式作用机制对附近基因进行调控,并且发现了广泛而复杂的 RNA-RNA 和蛋白质 -RNA相互作用网络 [4-6]。一些 lncRNA 可以产生内源性小干扰 RNA(siRNA)和miRNA 前体、改变蛋白质定位、调节蛋白质活性 [7-8]。它们不仅能够在转录及转录后水平上调节蛋白编码基因的表达,还广泛参与包括细胞分化、个体发育在内的多种重要生命过程 [9]。更重要的是,lncRNA 的异常表达与多种人类重大疾病的发生密切相关,这使得它们成为疾病诊疗中的重要潜在靶点。
lncRNA 的研究并未止步于此。近年来,越来越多的研究表明, lncRNA 中含有大量小于300个碱基的小开放阅读框(sORF),部分sORF可以翻译为小于 100 个氨基酸的肽,其被称为微肽[10-12]。微肽在钙离子稳态、胚胎发育、线粒体代谢以及恶性肿瘤的发生发展中发挥着重要调节作用 [13]。这一发现不仅补充了经典的“中心法则”,更提示我们在以往研究中可能忽视了 lncRNA 编码的微肽在生命调控过程的重要功能。
鉴于 lncRNA 编码的微肽的潜在生物活性及其与疾病的相关性,对 lncRNA 编码的微肽的研究进展进行综述显得尤为重要。本文将从 lncRNA 编码的微肽在病理及生理过程中的作用、定位与分子机制以及鉴定方法等方面对其研究进展进行综述。同时,本文也将探讨目前研究中面临的挑战和未来的研究方向,以期为相关领域的研究者提供借鉴和参考,并为 lncRNA 编码的微肽作为新型药物靶点和疾病生物标志物的开发提供思路。
分子生物学中心法则的基本原理是通过基因组的自我复制、转录、翻译,最终使遗传信息流向蛋白质。蛋白质作为生命构成的基石,在各类生命活动中发挥着不可或缺的作用。然而,人类基因组中只有2%的基因可以编码蛋白质,其余大部分则转录为非编码 RNA,仅有少数得以表征 [1-2]。
lncRNA 作为非编码 RNA 的一个重要分支,近年来随着研究的深入,已被明确定义为由 RNA 聚合酶Ⅱ催化转录、长度超越200个核苷酸且具有多聚腺苷酸化修饰的RNA分子[14-16]。依据lncRNA与蛋白质编码基因在基因组上的相对位置,可将其分为 4 种主要类型。1)反义 lncRNA( antisense lncRNA):转录方向与蛋白质编码基因方向相反,并与 mRNA 外显子存在部分或完全重叠;2)基因间 lncRNA( intergenic lncRNA, LincRNA):定位于蛋白质编码基因间隔区域;3)正义重叠 lncRNA ( sense overlapping lncRNA):转录方向与蛋白质编码基因方向相同,并与 mRNA 一个或多个外显子重叠;4)内含子 lncRNA( intronic lncRNA):基因位点在蛋白质编码基因的内含子内,但不与同一链上的任何外显子重叠 [17](见图 1)。
最近的研究表明,生物体的发育过程不仅受到蛋白质的调控, lncRNA 在其中同样扮演着至关重要的角色 [17]。这些 lncRNA 通过多种方式调节生物的生理功能,例如:通过影响组蛋白修饰酶调节表观遗传 [18-19];通过竞争性结合miRNA,充当 RNA 海绵[20];调控转录和剪接,影响蛋白质翻译过程 [21]。此外, lncRNA 中含有sORF,可以翻译成为微肽,这些微肽影响着生物体内多种不同的生理与病理过程,因此关注微肽的功能尤为重要。
在生物信息学领域,精确鉴别sORF是一项挑战。大多数算法将100个氨基酸作为最小检测单元,这种过滤策略显著降低了假阳性率,但也可能导致部分包含sORF的基因被错误注释为非编码 RNA[3]。直到1996 年,研究者首次在大豆基因ENOD40 中鉴定出由sORF编码的2个短肽(分别12和24个氨基酸),并于2002年通过对 ENOD40的进一步研究正式确认了这类短肽的功能 [14, 22-24]。随着转录组学和蛋白质组学技术的飞速发展,微肽的识别与鉴定取得了显著进展,多个微肽数据库已经上线。
目前,研究人员在真菌、动物和植物等多种生物类群中都发现了微肽,并且这些微肽在生命过程中发挥着重要的作用,例如影响代谢调控、维持 DNA稳态、参与应激响应,以及癌症和心血管疾病的发生发展 [13]。由此可见,微肽为疾病机制、诊断靶标、治疗分子等方面的研究提供了新的理论基础,深入挖掘微肽的功能机制将成为未来重要的研究方向。
lncRNA 编码的微肽展现出了多样的生物学功能。近年来,微肽在生理与病理过程中的功能机制逐渐被阐明 [14, 25],极大地推动了该研究领域的深入发展。以下将介绍lncRNA编码的微肽如何通过与特定蛋白质、RNA分子或细胞膜受体相互作用来调节细胞内的信号传导通路、基因表达模式以及细胞代谢过程,从而在肿瘤、心血管疾病等多种病理过程及正常生理过程中发挥调节作用。
3.1 在癌症中的作用
3.1.1 头颈部鳞状细胞癌 头颈部鳞状细胞癌(HNSCC)是最常见的癌症之一,研究人员在lncRNA RP11-469H8.6 转录本中发现了一个包含 51个密码子的新sORF,并将其翻译的微肽命名为抑制肌动蛋白细胞骨架的微肽(MIAC)[12]。MIAC可与水通道蛋白2(AQP2)相互作用并下调整合素Beta4(ITGB4)和胞裂蛋白2(SEPT2),从而影响纤维状肌动蛋白( F-actin)的细胞骨架形成。在人舌鳞癌细胞(CAL27)中稳定过表达 MIAC 后,细胞增殖迁移能力降低。同时, MIAC 过表达可使HNSCC 模型小鼠的肿瘤生长受到显著抑制。这些信息进一步证明了 MIAC 在肌动蛋白细胞骨架形成和肿瘤转移调控中的重要作用,也揭示了 AQP2、SEPT2 和 ITGB4 的表达在 HNSCC 细胞增殖和迁移中的关键作用。
3.1.2 结直肠癌 6-甲基腺苷(m6A)是真核RNA中
最普遍的修饰物, RNA m6A 修饰在转录调控中的作用离不开 m6A 结合蛋白(也称 m6A 阅读器),这类蛋白直接介导了多种生物学功能的实现。lncRNA LINC00266-1 可以编码含有 71 个氨基酸的微肽,后者可与胰岛素样生长因子 2 mRNA 结合蛋白1( IGF2BP1,一种 m6A 阅读器)等 RNA 结合蛋白相互作用,因此被命名为“RNA结合调节肽”( RBRP)[8]。在原发性结直肠癌(CRC)中, RBRP 表达水平升高并结合IGF2BP1,从而增强IGF2BP1对靶RNA(如致癌基因c-Myc的mRNA)上 m6A 修饰结构的识别,然后招募 RNA 稳定剂到 m6A 修饰的靶RNA 上,最终使靶 RNA 的稳定性和表达量增加。总的来说,由 LINC00266-1 编码的 RBRP 与 m6A 阅读器相互作用,可调节 m6A 阅读器对靶 RNA 的 m6A 修饰结构的识别,从而发挥致癌作用。
3.1.3 食管癌 食管癌是消化道肿瘤中较为常见的类型,也是全球第六大致死性癌症,每年约有30万人死于食管癌。食管癌有食管鳞状细胞癌( ESCC)和腺癌(EAC)2种类型,ESCC是亚洲食管癌的主要亚型,虽然多模式治疗改善了食管癌的疗效和预后,但总体上 5 年生存率仍然较低。有研究发现了一个Y连锁的lncRNA LINC00278[26],其在男性 ESCC中下调。LINC00278 可以编码含有21个氨基酸的微肽,该微肽可以和调控蛋白 YY1 结合,因而被命名为YY1BM。在机制上,YY1BM可以抑制 YY1 与雄激素受体(AR)的相互作用,进而使真核生长因子2激酶(eEF2K)的表达降低,并在营养剥夺(ND)下诱导ESCC细胞凋亡,可作为 ESCC 的潜在抗癌微肽。
3.1.4 乳腺癌 乳腺癌(BC)是最常见的恶性肿瘤之一,在女性中发病率很高,已严重威胁到女性的健康乃至生命。乳腺癌发病率通常在女性绝经前后较高,主要集中在乳房腺上皮组织,有一定的遗传性。因此,阐明乳腺癌相关机制对于其临床治疗具有重要意义。最近,许多研究揭示了 lncRNA 编码的微肽与乳腺癌的密切关联 [27-28]。
三阴性乳腺癌(TNBC)是乳腺癌的一种亚型,具有侵袭性,且预后性较差。研究发现,谷氨酰胺(Gln)代谢在 TNBC 和非三阴性乳腺癌(non-TNBC)中有着关键作用。lncRNA MLLT4-AS1 可以编码含有21个氨基酸的微肽,其可与剪接型 X-box 结合蛋白1(X-box binding protein 1 spliced, XBP1s)相互作用,因而被命名为 XBP1s 结合多肽(XBP1SBM)[29],该微肽在TNBC组织和Gln缺失的TNBC细胞系中上调。Gln 缺失可诱导XBP1s转录从而促进XBP1SBM表达 上 调,同时XBP1SBM阻断了非剪接型的X-box蛋白1(X-box binding protein 1 unspliced,XBP1u)和XBP1s之间的相互作用,并将XBP1s保留在细胞核中以增强血管内皮生长因子(VEGF)的表达。在人内皮细胞、小鼠异种移植模型和小鼠自发性 BC 模型中进行的研究表明,XBP1SBM 可以改善 TNBC中的Gln水平,以促进血管生成和转移,这种机制为TNBC提供了一种新的预后生物标志物和治疗靶点选择。
TNBC组织中的lncRNA LINC00908 [30]可编码含有60个氨基酸的微肽ASRPS(转录因子蛋白质STAT3的一种小调节肽)。与非TNBC组织相比, ASRPS 在TNBC组织中表达较低,同时ASRPS低表达与 TNBC 患者生存率低有关。在机制上, ASRPS 通过卷曲螺旋结构域( CCD)与 STAT3 相互作用,使得 STAT3 磷酸化减少,降低了 VEGF 的表达。在人内皮细胞、小鼠异种移植 BC 模型和自发性 BC 模型中, ASRPS 过表达减少了血管生成。在小鼠异种移植乳腺癌模型中, ASRPS 的下调促进了肿瘤生长。各项研究证据表明,微肽 ASRPS 具有治疗 TNBC 的潜力。
转化生长因子( TGF)-β 信号通路在乳腺癌转移中起关键作用。有学者鉴定了一种由 lncRNA LINC00665 编码的含有 52 个氨基酸的微肽,并命名为CIP2A-BP,其在乳腺癌细胞系中被TGF-β下调 [31]。具体而言, TGF-β 通过激活 Smad 信号通路,诱导翻译抑制蛋白 4E-BP 的表达,从而抑制真核翻译起始因子(elF4E),导致 CIP2A-BP 的翻译减少。CIP2A-BP 可以与肿瘤致癌基因 CIP2A 直接作用,增加了蛋白磷酸酶2A(PP2A)的活性,从而抑制磷脂酰肌醇 3-激酶( PI3K)/磷酸激酶 B( AKT)/核因子-κB( NF-κB)通路及下游基因的表达。研究发现,在乳腺癌自发模型小鼠中, CIP2A-BP 可以抑制肿瘤肺转移,提高小鼠总生存率,可作为乳腺癌细胞迁移和侵袭的抑制剂发挥作用,也是 TNBC 的预后标志物。
3.1.5 胶质母细胞瘤 有研究发现lncRNA LINC-PINT[32]是一种肿瘤抑制性基因间 lncRNA,参与构成多梳蛋白抑制复合物2(PRC2),环状结构的 LINC-PINT可编码含有87个氨基酸的微肽 PINT87aa。该微肽可与聚合酶相关因子复合物(PAF1c)结合,提示其在转录延伸过程中具有抑制作用。同时,与正常组织相比,胶质母细胞瘤(GBM)中PINT87aa表达水平下调,说明该微肽可能在GBM中发挥重要作用。随后的研究发现,过表达 PINT87aa 的细胞表现出 G1 期停滞和细胞增殖减少,而 PINT87aa 敲除细胞显示出细胞周期和细胞增殖速率增加,表明该微肽可能抑制 GBM 细胞增殖。在异种移植肿瘤动物中进行的研究显示, PINT87aa 敲除后肿瘤体积显著增加,进一步支持了 PINT87aa 在体内的抗癌作用。
3.1.6 黑色素瘤 皮肤黑色素瘤(SKCM)是皮肤癌中恶性程度最高的肿瘤类型,主要特征为色素性皮损的明显变化。其死亡率较高,且易在早期发生转移,因此早期诊断与治疗很重要。lncRNA MELOE位于基因HDAC4的反义方向的内含子中,包含多个 sORF[33]。研究表明,MELOE可以编码3种微肽,即 MELOE-1、MELOE-2和MELOE-3,长度分别为39、44 和 54 个氨基酸。其中, MELOE-1 和 2 的翻译是通过内部核糖体结合位点( IRES)依赖性机制实现的,且在黑色素瘤细胞中特异性高表达,与黑色素瘤的 T 细胞免疫识别有关 [34-36],可能有助于癌细胞的肿瘤发生及转移。然而, MELOE-3 通过经典的帽依赖性翻译,在黑色素瘤和黑色素细胞中均高表达,免疫原性较差。总的来说,在 MELOE 抗原家族中, IRES 依赖性抗原是免疫原性最强的,也是黑色素瘤免疫治疗的最佳靶点 [33]。
3.2 在其他病理生理过程中的作用
3.2.1 心血管疾病 内皮细胞(EC)是一种异质性细胞系,可调节脉管系统的稳态。在血管生成过程中,EC被促血管生成因子激活后开始发芽、增殖、迁移,然后形成新的毛细血管并恢复到静止状态。研究发现,lncRNA LINC00961编码的含有75个氨基酸的微肽SPAAR(氨基酸反应的小调节多肽)可以调节内皮细胞功能,并且LINC00961和SPAAR 均反向调节血管生成 [37]。此外,SPAAR的缺失会影响小鼠的心脏发育、心肌动力学和心血管功能,这表明SPAAR 有助于成年期的生长发育以及基础心血管功能,从而降低心肌梗死的风险 [38]。上述研究结果或可为心血管疾病的临床治疗提供新的科学依据和策略。
3.2.2 肺动脉高压 肺动脉高压(PH)是一种肺血管疾病,其特征是肺血管阻力逐渐增加,导致劳力性呼吸困难症状逐渐恶化,直至右心室衰竭, PH 中的一个重要病理过程与缺氧引起的肺动脉平滑肌细胞(PASMC)的增殖有关[39]。lncRNA Rps4l 被发现在缺氧诱导的PH中下调,其编码的微肽 RPS4XL 可以抑制PASMC增殖并减少PASMC诱导的PH死亡 [40-41]。此外,微肽 RPS4XL 与核糖体蛋白 S6( RPS6)相互作用,调节 RPS6 的磷酸化从而参与 PH 相关因子的通路,最终影响缺氧诱导的 PH 病理过程。RPS4XL与RPS6相互作用的发现为缺氧诱导的 PH的治疗和早期诊断提供了新的思路 [39]。
3.2.3 mRNA降解 lncRNA LINC01420 基因位于X
染色体上,含有 3 个外显子,由 2 个内含子隔开。mRNA 降解相关的 RNA 蛋白质颗粒(P-body)是
一种细胞质结构,主要包含未翻译的mRNA、 RNA降解相关的蛋白质以及其他与 mRNA 的代谢和调控有关的因子。研究人员发现 LINC01420 中的一个ORF 可编码含有 68 个氨基酸的微肽,并将其命名为NoBody[42]。NoBody 和 P-body 数量之间存在负相关关系,并且和 mRNA 脱帽蛋白存在相互作用关系,从而参与mRNA稳态调节和降解过程。同时,研究表明NoBody的缺失导致无义介导的 mRNA降解(NMD)底物的稳态水平降低,这与 NoBody 对细胞中 mRNA 降解的负调控结果一致,但其具体的调控机制还需要进一步的探究。总的来说,NoBody是 mRNA 脱帽复合物的一种新成分,其在 mRNA稳态和降解过程中具有潜在的调控作用。
3.2.4 肌肉发育 最近有研究表明 [43], lncRNA 作为肌肉生成和骨骼肌再生的调节因子具有重要作用。有研究鉴定了一种可在骨骼肌中特异性富集的与肌生成相关的 lncRNA lnc-mg。对原代骨骼肌细胞的分析表明, lnc-mg 在肌源性分化过程中逐渐增加,其过表达改善了细胞分化 [43]。研究发现 lncRNA MyolncR4在肌肉分化过程中被上调,MyolncR4可编码含有 56 个氨基酸的微肽 [44],其被命名为LEMP,并在脊椎动物物种中高度保守。LEMP可促进小鼠肌肉形成和再生,并与多种线粒体蛋白相关,或可通过调节线粒体功能来调节肌肉发育和再生。
在分析骨骼肌特异性lncRNA时, Anderson等 [45]发现了 LINC00948 中以前未被识别的ORF,其编码一个保守的含有 46 个氨基酸的微肽,并将该微肽命名为肌调节蛋白(MLN)。MLN 形成单个跨膜α 螺旋,与肌浆网(SR)膜中的心肌肌浆网 Ca2+- ATP酶(SERCA)相互作用并调节 Ca2+,是骨骼肌中主要的 SERCA 抑制性微肽。SERCA 是横纹肌性能的关键调节剂,它作为主要的 Ca2+ATP 酶,负责将细胞溶质 Ca2+ 再摄取到 SR 中。MLN与SR膜中的 SERCA 形成稳定的复合物,并且MLN直接影响SR Ca2+ 水平和机体最大运动表现。
3.2.5 胰腺 β 细胞内稳态调节 有研究鉴定了一种在 β细胞和神经细胞中富集的 lncRNA TUNAR 所编码的微肽 [3],该微肽高度保守且含有48个氨基酸,被命名为β细胞和神经细胞调节蛋白(BNLN)。研究发现,过表达的 BNLN 降低了胰腺 β 细胞中内质网钙水平,维持了内质网稳态,并提高了葡萄糖刺激的胰岛素分泌。除胰腺外, TUNAR 在大脑、垂体、睾丸、输卵管和子宫中丰度高,但还需要进一步的研究来发现该 lncRNA 编码的微肽在其中发挥的功能。
3.3 小结
如前所述, lncRNA 编码的微肽在病理生理过程中发挥着广泛而重要的作用。未来,随着研究的深入,我们有望发现更多 lncRNA 编码的微肽并揭示其功能,为疾病的诊断与治疗提供更加精准和有效的策略。图2概括了 lncRNA 编码的微肽通过与蛋白质相互作用调控疾病进程及细胞内多种生命活动的复杂网络,展示了这一研究领域的重要性和发展前景。
随着人们对 lncRNA 编码的微肽研究的持续深化,大量研究揭示了微肽在多种细胞与组织中的独特分布特征及其功能多样性。Shi等[46]通过对 HEK293细胞的转录组测序(RNA sequencing, RNA-seq)联合核糖体印迹测序(ribosome sequencing, Riboseq),鉴定出 77 种已知的微肽在膜上高度富集。他们发现,大约 30% 的微肽具有生物膜富集的趋势,且与内质网应激反应、肌肉发育和抗病毒免疫反应有关。Aspden 等 [47] 利用多聚核糖体测序技术、肽标记转染及免疫印迹鉴定了一系列具有不同亚细胞定位的微肽,并阐释了各自的功能差异。这些研究强调了微肽亚细胞定位可能与其特异性功能有重要的联系,为微肽研究领域开辟了新的探索方向。以下将详细介绍分布在细胞膜、细胞质与细胞器,以及细胞核等区域的微肽所发挥的具体生物学功能。
4.1 定位于细胞膜
有研究发现 lncRNA Gm11549 可编码一种含有61个氨基酸的微肽,将其命名为 NEMEP[48]。蛋白质拓扑预测分析表明, NEMEP 是一种单程跨膜蛋白,研究人员预测发现其在第7 ~ 29 位氨基酸间具有 α-螺旋结构域。同时,免疫荧光及免疫印迹实验显示在小鼠胚胎干细胞(mESC)中 NEMEP 位于细胞膜上。在随后的研究中发现, NEMEP 可以和细胞膜上的葡萄糖转运蛋白(GLUT)1和3相互作用并在中胚层分化过程中增加葡萄糖摄取,维持细胞内的能量代谢。总的来说,该微肽在细胞膜上的位置和特异性表达使其在调节葡萄糖转运和代谢方面发挥关键作用。
4.2 定位于细胞质与细胞器
4.2.1 细胞质基质 据报道,人类lncRNA MIR155HG在炎性树突状细胞(DC)中高表达,且可以编码一种含有 17 个氨基酸的微肽 miPEP155(P155)[49]。对该微肽的定位研究表明,其主要分布于细胞质中,并与细胞质中热休克蛋白70(HSC70)选择性结合,从而调节炎性 DC 中主要组织相容性复合体(MHC)Ⅱ类分子呈递,显著改善小鼠炎性 DC 驱动的自身炎症。此外,P155 能够调节抗原呈递,可作为治疗自身免疫性疾病的良好候选肽类药物。
4.2.2 内质网 lncRNA ASH1L-AS1 可编码一种微肽APPLE [50],对该微肽进行亚细胞分离,结果显示其在细胞质中的分布比较突出。值得注意的是,该微肽主要与内质网标志物共定位,而与其他细胞器标志物无关。研究人员在随后的基因本体(GO)分析中发现, APPLE 的相互作用组在“翻译”相关类别中最为丰富,这与 APPLE 在内质网中富集这一结果共同说明了该微肽可能在翻译过程中起作用。最后,实验研究证明 APPLE 可以和多聚腺苷酸结合蛋白(PABPC)1相互作用,促进 mRNA 环化和翻译启动。
Yang 等[51]发现, lncRNA LINC00998上的 sORF编码了一种含有 59 个氨基酸和 2 个跨膜螺旋的微肽,并将其命名为 SMIM30。该微肽是一种新型的跨膜肽。通过膜质分离实验和激光共聚焦实验对SMIM30 进一步研究发现, SMIM30 与内质网膜和线粒体膜标记物表现出相同的定位模式,表明该微肽主要位于内质网膜和线粒体膜中。众所周知,内质网( ER)和细胞质之间的钙通量主要通过 ER 膜上的跨膜受体和钙离子泵调节。其中,肌醇-24, 1, 4-三磷酸受体( InsP5R)负责将钙从 ER 释放到细胞质,而 SERCA 钙泵负责将钙从细胞质输送到内质网。研究发现,微肽 SMIM30 可通过 SERCA 起作用,降低胞质钙水平,这对于维持细胞内钙稳态至关重要。随后, Shi 等 [46] 发现 SMIM30 通过跨膜域( TM)靶向线粒体抗病毒信号蛋白( MAVS),以干扰其与 RNA 传感器蛋白 RIG-I 的相互作用,并将 SMIM30 重新命名为抗病毒免疫中的微蛋白1( MAVI1)。总的来说, MAVI1 的内质网膜和线粒体膜定位对于其在钙离子稳态调节和抗病毒先天免疫应答中的作用至关重要。
4.2.3 线粒体LINC01013是一种基因间 lncRNA,其分布于人脐带血管内皮( HUVEC)细胞中,与关键纤维化基因 CCN2 协调表达,提示其在纤维化中的潜在作用 [52]。研究人员通过 RNA-seq 技术分析发现,该 lncRNA 具有一定的编码潜力。进一步研究 LINC01013 ORF 编码微肽的亚细胞定位,结果表明,该微肽与线粒体基质标志蛋白明显共定位,表明 LINC01013 ORF 编码微肽定位于线粒体基质中。研究数据显示, LINC01013直接与TGF-β1 介导的成纤维细胞活化有关,并且这种效应至少部分是由于 sORF 编码的微肽而介导的。线粒体介导的代谢驱动因素广泛激活成纤维细胞,通过活性氧激活 p38 丝裂原活化蛋白激酶( p38MAPK)和细胞外信号调节激酶 1/2( ERK1/2)途径而起作用,说明LINC01013 ORF 编码微肽的促纤维化作用可能是通过整体代谢应激引起的。
研究人员发现[53],lncRNA LINC00493 可被PABPC4 识别并转移到核糖体中,从而翻译出含有95 个氨基酸的微肽,并将该微肽命名为 SMIM26。SMIM26 在透明细胞肾细胞癌(ccRCC)中下调,与低总生存率相关。蛋白质编码序列分析显示, SMIM26 的 N 端(第 1 ~ 35 位氨基酸)和 C 端(第52 ~ 95 位氨基酸)具有进化保守性。利用 TMHMM软件进行预测,可见 SMIM26 的跨膜螺旋片段具有2 个 α 螺旋(第 1 ~ 12 位氨基酸和第 36 ~ 95 位氨基酸)和 1 个跨膜结构域(第 13 ~ 35 位氨基酸)。随后的激光共聚焦结果显示, SMIM26 与线粒体共定位,主要位于线粒体外膜。SMIM26 通过其 N 末端与酰基甘油激酶( AGK)和谷胱甘肽转运调节因子( SLC25A11)相互作用,来抑制ccRCC生长和转移性肺定植。这种相互作用增加了 AGK 的线粒体定位,随后抑制 AGK 介导的 AKT 磷酸化。上述研究表明,线粒体 SMIM26 在线粒体蛋白代谢机制中起着重要作用,提示 SMIM26 可能成为治疗 ccRCC的一种潜在选择。
lncRNA 1810058I24Rik 被Zheng等[54]证明可编码线粒体定位的微肽 Stmp1。为了确定 Stmp1 的亚细胞器位置,该课题组从 NIH3T3 细胞中提取线粒体蛋白,蛋白质印迹显示 Stmp1 与线粒体内膜或线粒体外膜中的蛋白质共定位。在小鼠体内,微肽Stmp1 的缺乏可以抑制小胶质细胞和炎症小体 Nlrp2的活性,从而保护视网膜神经节细胞免受视网膜缺血/再灌注损伤( IR)损伤。此外,在小鼠中敲除或在原发性小胶质细胞中敲低 Stmp1 可以促进线粒体融合,导致线粒体膜电位受损,活性氧(ROS)产生减少,从而使有氧糖酵解减少,炎症减轻。同时, Stmp1 通过抑制代谢传感器解偶联蛋白 2( Ucp2)的表达和激活 Ca2+ 的表达来控制线粒体功能,从而触发炎症小体 Nlrp2 激活,为视网膜 IR 的分子机制提供了新的线索,并可能为 IR 相关的神经退行性疾病提供新的治疗思路。
4.2.4 外泌体 Jiang等[55]发现lncRNA LINC02381 在GBM 中高表达,预测该 lncRNA 可编码相应的微肽,通过 smORFunction(一种用于预测 sORF 和微肽功能的工具)和 iLoc-lncRNA(一种用于预测 lncRNA的亚细胞位置的工具)对 LINC02381 编码微肽的位置信息和序列信息进行分析,结果表明 LINC02381位于细胞质中,其编码的微肽位于外泌体中。进一步研究发现, LINC02381 编码的微肽与溶质载体家族2成员10( SLC2A10)相关,有可能调控铁死亡。LINC02381编码的微肽在外泌体中表达丰富且稳定,可以调节 GBM 的细胞增殖、侵袭、血管生成、免疫逃逸和耐药性,有望成为 GBM 新的生物标志物。
4.3 定位于细胞核
Tornini 等 [56] 发现 Linc-mipep 和 Linc-wrb 分别编码大小为 87 和 93 个氨基酸的微肽,并命名为hmgn1a 和 hmgn1b。该课题组进一步发现,这 2 种微肽富集在细胞核中,提示其可能与细胞核的一些功能有关。随后的研究表明,这 2 种微肽的缺失对染色质可及性有影响,特别是突变体中的染色质可及性在谷氨酸电离受体 N-甲基-D-天冬氨酸(NMDA)受体亚基 1 等区域发生改变,从而改变了多个转录因子(TF)结合位点的可及性,这进一步说明该微肽的核定位对其相关功能的实现具有重要作用,为后续机制探究提供了方向。
Mitoregulin( MOXI)是一种高度保守的微肽,由56个氨基酸组成,由人 lncRNA LINC00116 和小鼠 lncRNA 1500011K16Rik 编码,最初被证实存在于小鼠心脏和骨骼肌组织的线粒体内膜中,与线粒体三功能蛋白结合,可增强脂肪酸 β 氧化和呼吸效率。然而, Li 等 [57] 还发现 MOXI 对肾纤维化具有调节作用,揭示了 MOXI 的全新功能,即易位到细胞核中调控基因转录。进一步研究表明, MOXI 的 T49位点磷酸化对其核积累至关重要,可促进 MOXI 与N- 乙酰转移酶 14( Nat14)和原癌基因蛋白( c-Jun)形成复合物,从而促进 α-1 型胶原蛋白基因( Col1a1,一种纤维化相关基因)转录。同时,在成纤维细胞中进行的研究还发现,用 TGF-β1 处理细胞后的 12 h 内, MOXI 在线粒体中显著增加,但在 24 h 后,其核积累变得明显,线粒体中 MOXI 轻微下降。MOXI 在细胞核和线粒体之间的双向通信,为肾纤维化的研究提供了重要思路。
lncRNA AC115619 在肝细胞癌(HCC)中低表达,并编码一种微肽 AC115619-22aa[58]。免疫荧光染色显示, AC115619-22aa 与 m6A RNA 修饰相关蛋白 WTAP 在细胞核内共定位,提示该微肽可能在细胞核中发挥相关功能。m6A RNA 修饰是一种常见的RNA 修饰形式,其在细胞核中发生后,被修饰的RNA 分子可通过核孔复合物被转运到细胞质中,进一步影响RNA的稳定性、转录后调控及翻译过程等。细胞核作为转录和 RNA 修饰的主要地点,对 m6A修饰的调控起着重要作用,而蛋白 WTAP 是 m6A 甲基转移酶复合物的核心成员之一,可以调节这一修饰反应的催化活性和特异性。对 AC115619-22aa 的研究发现,其通过与 WTAP 结合来阻碍 m6A 甲基转移酶复合物的组装,从而抑制 HCC 的进展。
4.4 小结
如前所述, lncRNA 编码的微肽在细胞内的亚细胞定位模式多样,且可通过复杂精细的机制调控细胞活动(见图 3)。未来可对微肽的亚细胞定位及生物学功能进一步研究,进而为疾病的精准治疗提供新思路。
过去,鉴定 lncRNA 编码的微肽及其内在特性的技术有限,使得 lncRNA 编码的微肽的发现进程显著受阻。然而,近年来,生物技术与工具的日新月异已将 lncRNA 编码的微肽的研究推向了新的热潮,为发掘新型可编码微肽提供了强有力的支撑与手段,使得 lncRNA 编码的微肽逐渐获得了学界的广泛接纳与认可 [3, 11]。以下将介绍当前微肽研究中常用的关键技术与方法。
5.1 生物信息学
生物信息学的核心研究领域涵盖基因组学(Genomics)和蛋白质组学(Proteomics),专注于解析核酸与蛋白质序列中蕴含的结构与功能信息,已成为生物学研究中不可或缺的手段与工具 [59]。通过生物信息学的方法可以将目标元素与随机出现的噪声区分开来,其中,序列保守性和序列相似性是常用的参数 [60-61]。序列相似性搜索通过比对待预测微肽与已知蛋白质的结构域,揭示其编码潜力和潜在功能。常用的预测软件有 sORFfinder[62]、HAltORF[63]、 PhyloCSF[64] 等。编码-非编码识别工具(CNIT)[65] 仅凭借对固有序列组成的分析进行分类,无需依赖注释信息,展现出跨物种应用的潜力。新开发的 MicroPeptide( MiPepid)[66] 工具基于微生物蛋白作为训练集的逻辑回归模型来预测sORF。支持向量机(SVM)分类器与编码潜力预测器(CCPred)通过整合蛋白质折叠预测因子等附加特征,进一步增强了预测能力 [61]。尽管生物信息学技术的持续进步极大地推动了相关领域的探索,但在准确预测和注释 ssORF 等方面遇到的难题,仍凸显了这些信息的复杂性与挑战 [66]。
5.2 核糖体印迹测序分析
Ribo-seq 是一种新兴的实验技术,它结合了高通量测序技术,可以在全基因组水平上监测蛋白质的翻译水平,为探索细胞内蛋白质翻译调控机制开辟了新途径。Ribo-seq 可以提供具有单核苷酸分辨率的全基因组主动翻译快照 [61],显著推动了 sORF 的检测流程,并在该领域展现出至关重要的作用。目前 Ribo-seq 建库测序的原理是对细胞使用翻译抑制剂,使活跃翻译的核糖体锚定于 mRNA 序列或起始密码子上 [66-67]。随后,将细胞裂解并加入 RNA 酶,消化掉未受核糖体保护的 mRNA 区域,分离单个核糖体并纯化其上保留的、未被消化的 mRNA 短片段,进行建库测序和相应的数据分析。尽管这些工具用于 sORF 检测的效能仍有待研究,但深度学习算法的应用为基于Ribo-seq 数据的 sORF 检测策略的优化提供了可能。
5.3 转录组测序技术
RNA-seq 作为一种高通量测序技术,可对mRNA、 miRNA 和 lncRNA 等进行深度测序分析,从而反映出它们的表达水平,为翻译过程提供证据 [61]。这项技术在转录本结构解析、非编码区域功能探索、基因表达水平量化和全新转录本发掘等多个研究领域均展示出较大的优势。RNA-seq 能够对每个转录本片段序列进行直接测定,即使是只有拷贝数极低的稀有转录本也能够检测到。此外, RNA-seq 技术适用于任何物种的全基因组分析,并能检测未知基因,从而揭示新的转录本,因此其在 lncRNA 和微肽的研究中,也是一种十分重要的工具。
5.4 液相色谱-串联质谱
通过液相色谱-串联质谱(LC-MS/MS)分析技术,我们可得到目标样品的质谱图,将其与已知蛋白数据库中的理论质谱图进行比对,即可鉴定出由 sORF编码但尚未被注释的微肽。该方法可以直接检测到基因编码的产物,因此一直被认为是微肽研究领域的“黄金标准” [68]。尽管 Ribo-seq 技术为 sORF 研究领域带来了革命性的变化,但其所提供的翻译证据并不一定意味着功能性微肽的产生。因此,基于LC-MS/MS 技术对翻译产物进行鉴定,从而获得一组高置信度的 sORF 仍然至关重要 [61]。然而,微肽的长度较短 [69],表达水平较低,在 MS 样品制备过程中这些小的翻译产物可能面临降解风险,为微肽的质谱鉴定增加了难度,亟需开发更为灵敏的检测方法 [70]。
5.5 基于成簇的规律间隔的短回文重复序列及其相关蛋白9的基因编辑技术
成簇的规律间隔的短回文重复序列(CRISPR)筛选技术是一种大规模的基因功能丧失实验方法,有助于揭示特定细胞类型中特定功能或表型的关键基因或基因序列。Cas9 是 CRISPR 相关核酸酶, CRISPR/Cas9 是最新出现的一种由 RNA 指导的,利用 Cas9 核酸酶对靶向基因进行编辑的技术。该项技术通过在 DNA 中的特定目标位点进行双链切割,诱导细胞利用其 DNA 修复机制进行修复,是一种有针对性且实用的方法,可以确定 sORF 的编码潜力。尽管该技术无法直接预测 sORF,并且需要事先对其核苷酸序列进行预测分析,但它是验证蛋白质表达、亚细胞定位和功能的独特工具 [71]。此外,CRISPR-Cas9 使功能丧失方法成为可能,可通过分析缺乏目标基因后系统的表型变化,定义该基因的生物学功能。然而,一些微生物蛋白并不总能产生可检测的表型,这在一定程度上削弱了该方法的优势 [61]。
综上所述,在 lncRNA 编码的微肽的研究中有
多种方法可提供有效证据,通常使用的描绘潜在
sORF 的高通量方法可归类为生物信息学分析、测序策略和质谱( MS)分析。生物信息学方法使用系统发育保守特征作为功能预测的首要证据;而通过核糖体分析(Ribo-seq)或 RNA-seq 进行测序,提供了翻译证据;LC-MS/MS可提供翻译产物的直接证据。
在过去数十年间,众多研究不断揭示出 lncRNA在转录组中蕴藏的可翻译的 sORF。这些 sORF 可以编码小于 100 个氨基酸的微肽,并在多种生物进程中发挥着不可或缺的作用。本文回顾了当前与病理功能和生理作用紧密相关的 lncRNA 编码微肽的研究(见表 1)。
总的来说,一些微肽在 HNSCC、 CRC、食管癌和 BC 等多种癌症中都表现出特异性表达,并发挥一定的促癌或抑癌作用。同时,部分微肽在心血管疾病、 mRNA 降解、肌肉发育等过程中也发挥着特定的调节作用。此外,本文还归纳了不同细胞定位的微肽与其功能之间的联系。例如,定位于内质网的微肽 APPLE 能够促进 mRNA 的环化和翻译启动;定位于细胞膜的微肽 NEMEP 能够与细胞膜上的 GLUT 相互作用,在中胚层分化过程中增加葡萄糖摄取;而定位于细胞核的微肽 AC115619-22aa 则影响着 RNA 的稳定性、转录后调控及翻译过程等。综上所述,这些微肽在细胞中所发挥的功能与其在亚细胞结构中的定位密切相关,对微肽的亚细胞结构定位的研究有助于我们更准确、迅速地发现微肽在生命过程中所扮演的角色。本文亦介绍了微肽研究中常用的实验方法。随着高通量转录组测序、生物信息学技术和多种生物技术的革新和发展,越来越多的实验方法被应用于微肽研究领域,通过这些方法可筛选出更多具有编码能力的 lncRNA,进而揭示其在疾病发生发展过程中的作用机制和功能。
微肽为肿瘤等多种疾病的预防和治疗提供了新的靶点和生物标志物,其在生理病理过程中的调节作用也展现出在临床诊断和治疗方面的巨大应用潜力。目前,在肿瘤治疗领域,尽管微肽尚未真正应用于临床,但多项研究均已经证实,将抑癌性微肽直接注射到小鼠肿瘤模型中或者特异性敲除致癌微肽,均可有效抑制肿瘤进展。例如,在BC模型小鼠中进行的研究已证实,微肽CIP2A-BP-55aa和ASRPS-60aa能够抑制肿瘤的肺转移和血管生成 [72]。此外,自100年前胰岛素被发现以来,多肽作为后基因时代的热点,已被广泛应用于药物开发领域。与化疗药物相比,肽类药物具有特异性和活性高、细胞毒性小和免疫原性低等优点,而内源性多肽为肽类药物的研发提供了丰富的天然资源宝库。微肽作为一类新兴的内源性多肽,在许多生理病理过程中具有不可或缺的作用,以微肽为先导化合物进行药物的设计、优化与成药性评价也是新药研发的重要方向。同时,一些微肽如RBRP、 XBP1SBM、 MELOE-1、MELOE-2 和 MELOE-3 在肿瘤组织中特异性表达,且与肿瘤预后密切相关,可作为新的肿瘤生物标志物,应用于体液检测等早期诊断技术的开发,为癌症的早期诊断、治疗监测及预后评估开辟了新的研究方向,有望推动癌症研究和精准医疗的发展 [73]。
尽管研究表明微肽对多种疾病具有抑制或促进作用,并有望成为疾病治疗的靶点,但仍需进一步的实验研究来揭示其在疾病中的具体作用机制以及其在体内的分布和代谢情况。微肽到达肿瘤部位并通过细胞膜进入肿瘤细胞的能力仍有待阐明,这些都是微肽研究亟需解决的问题 [74]。微肽所涉及的分子机制及信号通路不仅可为疾病治疗提供新的思路,还有望打破传统的蛋白质编码机制,从而完善和丰富中心法则,这将是未来的主要研发方向。此外,微肽在细胞中的分布和定位也有着显著的特异性,并表现出与功能的相关性,这也提示了微肽功能研究的方向和思路。需强调的是,由于微肽的分子片段较短且表达丰度低 [72],如何从基因组数以万计的 sORF 中准确识别编码蛋白的 sORF,并将其与真正的转录“噪音”区分开来,仍是一大挑战。验证lncRNA编码能力也是后续微肽功能研究的前提 [73]。因此,开发用于识别翻译序列的新工具和新方法,以及对现有算法和工具的改进,将有助于完成对不同物种翻译组的表征。同时,多种预测和实验手段的综合运用也将进一步提高微肽识别与验证的效率及准确率。有理由相信, lncRNA 编码微肽相关研究的不断深入,将会为生命医学领域中诸多悬而未决的难题提供新的解决思路。
喜欢我们文章的朋友点个“在看”和“赞”吧,不然微信推送规则改变,有可能每天都会错过我们哦~
免责声明
信息来源:药学进展
往期推荐
本平台不对转载文章的观点负责,文章所包含内容的准确性、可靠性或完整性提供任何明示暗示的保证。