Basic Information
英文标题:LncSEA 2.0: an updated platform for long non-coding RNA related sets and enrichment analysis 中文标题:LncSEA 2.0:一个更新后的平台,用于长非编码 RNA 相关的集合和富集分析 发表日期:20 November 2023 文章类型:Na 所属期刊:Nucleic Acids Research 文章作者:Guorui Zhang | Qiuyu Wang 文章链接:https://academic.oup.com/nar/article/52/D1/D919/7438910
Abstract
长非编码RNA(lncRNAs)具有广泛的生物学功能,研究已证明它们在调控发育、分化和免疫反应等主要生物学过程中的重要性。 lncRNA研究的加速积累极大地扩展了我们对lncRNA功能的理解。 在这里,我们介绍LncSEA 2.0(http://bio.liclab.net/LncSEA/index.php),旨在提供更全面的功能性lncRNAs集合和增强的富集分析能力。 与LncSEA 1.0相比,我们进行了以下改进:(i) 我们更新了11类别的lncRNA集合,并极大地扩展了每个集合中lncRNA的范围。 (ii)我们从多个资源中新引入了15种功能性lncRNA类别。 此次更新不仅包含了大量lncRNA下游调控数据,还覆盖了众多表观遗传调控数据集,包括与lncRNA相关的转录共因子结合、染色质调节因子结合以及染色质相互作用数据。 (iii)我们加入了两种基于GSEA和GSVA的新lncRNA集合富集分析功能。 (iv)我们采用了snakemake分析管道来追踪数据处理和分析。 总之,LncSEA 2.0提供了更全面的lncRNA集合和更多样化的富集分析模块,有助于研究人员更全面地研究lncRNAs的功能机制
Introduction
Para_01
长非编码RNA(lncRNAs)在众多生物过程中发挥着至关重要的调控作用,如发育、分化和免疫反应,它们通过充当分子支架、诱饵或转录调节因子来调节基因表达水平。 作为一种关键的细胞调控因子,lncRNAs存在于胞质和核内,能够在转录前和转录后水平广泛发挥作用。 从机制上讲,位于核内的lncRNAs可以与染色质或剪接因子相互作用来控制下游基因。 位于胞质中的lncRNAs可以作为竞争性内源RNA(ceRNAs)或相互作用物来调节基因表达。 例如,HOTTIP能够与WDR5-MLL复合体相互作用激活HOXA基因簇5'端基因的转录。 ANRASSF1可以形成R环结构,招募PRC2复合体,并沉默RASSF1A基因,参与乳腺癌和前列腺癌的发生。 GUARDIN可以与BRCA1和BARD1蛋白相互作用,稳定BRCA1蛋白,促进DNA修复,并抑制结肠癌细胞的凋亡和衰老。 越来越多的证据表明lncRNAs在调节肿瘤免疫状态方面发挥着关键作用。 研究发现lncRNAs可以通过调节它们对凋亡的敏感性改变肿瘤微环境中T细胞亚群的平衡,从而提出了肿瘤免疫逃逸的新机制。 此外,lncRNAs还可以通过影响葡萄糖代谢、脂质代谢、氨基酸代谢和线粒体功能,影响病毒感染、肥胖、糖尿病和动脉粥样硬化等免疫代谢相关疾病的发病和发展。 此外,已经证明lncRNAs在癌症的发生、进展和转移中起着重要作用。 像MALAT1、HOTAIR和H19这样的lncRNAs在包括肺癌、乳腺癌和结直肠癌在内的多种癌症中表现出异常的表达模式。 这些失调的lncRNAs可以促进癌细胞增殖,破坏平衡的肿瘤微环境,并加速肿瘤生长和转移。 随着对lncRNAs机制的深入研究,提出了更多lncRNAs的调控作用。 lncRNAs可以在染色质内与DNA和蛋白质相互作用,从而促进或抑制目标DNA区域内蛋白质的结合活性。 除了与染色质内的DNA和蛋白质相互作用外,lncRNAs还依赖于蛋白质介导的远端染色质相互作用来发挥其调控作用。 像CCCTC结合因子(CTCF)这样的蛋白质在介导这些相互作用中起着至关重要的作用。 通过促进远端染色质环化并将远端调控元件(如远端增强子)靠近目标基因启动子,lncRNAs可以直接增强它们对特定目标基因转录活动的影响能力。 许多研究表明,在转录调控程序中的主要调控因子是转录因子(TFs)、转录共因子(TcoFs)和染色质调控因子(CRs)。 TFs通常结合到特定的DNA顺式调控元件,连接远端或近端调控信号,通过招募协同转录调控因子来调节lncRNAs的表达。 例如,已经通过实验验证SMARCA4作为心脏特异性lncRNA Mhrt的上游抑制性染色质重塑因子和TcoF的功能,从而促进了心肌肥厚和心力衰竭的发展。 同时,N6-甲基腺苷(m6A)修饰是细胞生物学领域最先进的机制之一。 研究表明m6A修饰是lncRNA-MALAT1在肿瘤转移中发挥作用的关键因素。 具体来说,当lncRNA-MALAT1经历m6A修饰时,YTHDC1可以识别lncRNA-MALAT1的修饰位点,导致核斑点蛋白组成的重新组织,随后促进附近致癌基因的表达,进而促进肿瘤转移。 此外,发现m6A诱导的lncRNA-RP11通过上调Zeb1触发结直肠癌(CRC)细胞的迁移和增殖。 总结lncRNAs的所有这些调控作用或功能有助于全面理解lncRNA相关的调控景观
Para_02
近年来,研究人员开发了多个与长非编码RNA(lncRNA)相关的数据库,如EVLncRNAs、MNDR、LncRNAWiki、lncRNADisease和Lnc2Cancer,这些数据库记录了详细的lncRNA基础注释信息以及lncRNA相关的疾病表型信息。 此外,RNAInter、Npinter和ENCORI专注于提供关于RNA-RNA和蛋白质-RNA相互作用的信息。 ImmReg、InnateDB和ImmPort提供了关于lncRNA在癌症免疫学中的调控作用的信息。 这些数据库是研究lncRNA相关调控轴的重要资源。 然而,所有这些与lncRNA相关的注释信息和调控信息分散在众多资源中,并缺乏综合性的lncRNA列表及lncRNA功能分类。 随着人类疾病和生物学过程领域内与lncRNA相关研究的增加,迫切需要对人类lncRNA进行综合性收集和分类,因为从高通量或低通量实验中产生了大量的功能性lncRNA。 2020年,我们开发了LncSEA 1.0,该平台为用户提供多种类型的lncRNA集合,并支持lncRNA的注释和富集分析。 通过lncRNA富集分析,用户可以预测不同功能lncRNA集对应的特定细胞、组织和疾病类型,并分析它们在调节基因表达和细胞功能方面的潜在作用。 富集分析还可以帮助发现lncRNA与其他上游转录调控因子之间的相互作用网络,例如转录因子、转录共调控因子和环状RNA。 此外,自LncSEA 1.0发布以来,不断发现了更多的lncRNA功能数据集,为探索lncRNA的潜在功能提供了宝贵信息。 因此,迫切需要进一步整合这些积累的大规模数据集来探索lncRNA的功能和生物学意义,为深入研究lncRNA相关的分子机制和治疗应用提供调控线索
Para_03
我们推出了LncSEA 2.0,这是一个更新且大幅扩展的平台,支持超过40万个参考长非编码RNA(lncRNA)集合,涵盖33个类别和86个子类别,涉及超过20万个lncRNA。 值得注意的是,LncSEA 2.0中的lncRNA集合数据量相比于LncSEA 1.0有了显著增长。 除了LncSEA 1.0提供的基因集合富集算法外,LncSEA 2.0还增加了更先进的富集分析方法,包括基因集富集分析和基因集变异分析。 LncSEA 2.0不仅从下游调控数据源中整理lncRNA集合,还通过整合数百种人类细胞类型的ChIP-seq、DNase-seq、ATAC-seq和H3K27ac ChIP-seq数据,计算出大量的受上游转录调控因子和DNA调控元件调控的lncRNA集合。 LncSEA 2.0为与上游调控元件及下游靶标相关的lncRNA集合提供了注释和富集分析功能。 此外,LncSEA 2.0具备用户友好的界面,用于搜索、浏览和可视化这些lncRNA集合的详细信息。 总之,LncSEA 2.0是一个强大的平台,为用户提供多种类型的lncRNA集合,并支持lncRNA的注释和富集分析功能。
Data expansion and pre-processing
Standardized and scalable data processing workflow
标准化且可扩展的数据处理工作流程
Para_04
与LncSEA 1.0相比,LncSEA 2.0改进了lncRNA集合的收集和处理工作流程。 LncSEA 2.0采用了先进的snakemake框架来标准化大规模公共lncRNA相关数据的处理。 我们将数据组织成多个类别,每个类别包含若干子类别。 对于每个子类别,我们都创建了独立的脚本来方便处理,减少代码耦合,并显著提高数据的可扩展性。 利用最新的处理管道,LncSEA 2.0已经处理了超过40万个参考lncRNA集,覆盖了33个类别(包括突变、癌症免疫学、肿瘤转移、ceRNAs、染色质相互作用、RNA-RNA相互作用、RNA-蛋白质相互作用、RNA染色质修饰、RNA化合物、组织中的空间表达、癌症功能状态、疾病类型、m6A修饰、实验验证的功能、细胞标记、保守性、eQTLs、外泌体、炎症、SmORF、甲基化模式、基因中断、亚细胞定位、生存、药物、转录共因子、剪接事件、染色质调控因子)和86个子类别。
Collection and processing of lncRNA reference sets
长链非编码RNA参考集的收集与处理
Para_05
LncSEA 2.0 在数据量和类别方面都有显著扩展,并对收集类型进行了重新分类。 简而言之,LncSEA 2.0 新增了来自多种来源的与长非编码RNA相关的参考数据集,包括大量高通量和低通量验证的数据集,以及由生物信息学算法预测的长非编码RNA集合(图1)。 我们还从更新或新增的数据源中扩展了LncSEA 1.0中的长非编码RNA集合。 例如,我们利用自LncSEA 1.0发布以来可获取的相关数据库如Lnc2Cancer 3.0、EVlncRNAs 2.0和ENCORI的数据,更新了疾病类别。
图 1. 数据库内容和构建。LncSEA 2.0 不仅更新了原始数据集,还收集了更多可用的长链非编码 RNA(lncRNA)资源。LncSEA 2.0 包括浏览、搜索、下载以及可视化 lncRNA 集的功能,并支持多种 lncRNA 集富集功能。
Para_06
为了获取背景长非编码rna列表,我们采用了一个来自多个来源的长非编码rna集合,包括LncSEA 1.0、NONCODE 6.0和GENCODE。 所有长非编码rna的参考集的识别是利用这个全面的背景长非编码rna数据集进行的。 新增加的长非编码rna类别集合的收集和处理策略及具体协议如下:
Chromatin interactions
染色质相互作用
Para_07
研究已揭示,具有染色质相互作用的基因组区域能够产生大量的长非编码RNA(lncRNAs),例如增强子RNA,以调控下游基因的转录。 这种机制有助于发现位于同一染色体上的长非编码RNA与其靶基因之间的相互作用。 因此,我们从OncoBase收集了染色质相互作用数据,通过筛选长非编码RNA-基因对来获得一组潜在的长非编码RNA靶基因
Experimental validated functions
实验验证的功能
Para_08
长链非编码RNA(lncRNAs)被认为是疾病中的关键调控因子,并已被证明通过多种生物学功能参与病理过程,如细胞增殖、凋亡和细胞转移。 我们从LncTarD2.0下载了所有实验支持的lncRNA-调控功能关系,该数据库收集了由疾病相关lncRNAs驱动的关键靶标和重要生物学功能以及人类疾病中的lncRNA介导的调控机制。 我们将所有关系根据lncRNA介导的调控在人类疾病中对生物学功能的正向(+)或负向(-)影响进行了分类。
Gene perturbations
基因扰动
Para_09
长链非编码RNA(lncRNAs)受到许多上游调控因子如转录因子和其他转录调控因子的调控。 抑制上游转录因子的表达可以直接抑制或增强长链非编码RNA的转录活性。 我们从KnockTF数据库(27)获得了由高通量数据支持的转录因子-长链非编码RNA关系的敲低/敲除实验(siRNA/shRNA/CRISPR)。 我们根据不同的转录因子扰动数据集以及转录因子名称划分了长链非编码RNA集合。
Cancer immunology
癌症免疫学
Para_10
免疫系统中的异常基因调控模式被认为是多种癌症发展的主要原因。 识别和表征与长链非编码RNA(lncRNA)相关的潜在调控因子对于癌症免疫治疗至关重要。 我们从ImmPort收集了与lncRNA相关的免疫功能,从InnateDB获取了免疫相关基因本体(GO)术语,并从ImmReg获得了免疫相关途径和细胞的信息。 我们还使用Cibersort软件从TCGA队列中获得了与癌症免疫学相关的lncRNAs。 根据免疫相关功能和表型,我们将所有这些lncRNAs分为五个类别,包括基因本体(GO)、途径、功能、细胞和癌症
Inflammation
炎症
Para_11
炎症被认为是多种疾病发病、进展和结局的主要原因,如癌症和心血管疾病。 最近的研究揭示了长非编码RNA可以通过调控炎性介质(如细胞因子和趋化因子)参与免疫系统的调节过程,并涉及免疫治疗。 我们从ncRI下载了所有实验验证的长非编码RNA-炎症性疾病关系数据。
Mutations
突变
Para_12
发生在长非编码RNA(lncRNAs)中的突变已被证明在癌症发展中扮演重要角色。 突变可以破坏lncRNAs的RNA二级结构,影响它们的分子功能和表达模式。 lncRNAs表达的变化及其突变促进了肿瘤的发生和转移。 因此,我们分别从TCGA和ICGC收集了与lncRNA相关的突变数据。
RNA compounds
RNA化合物
Para_13
长链非编码RNA(lncRNA)已被证明具有结合化合物的能力。在这里,我们从RNAinter数据库收集了所有lncRNA-化合物对。我们根据不同的化合物名称将lncRNA集合进行了划分。
RNA-related histone modifications
与RNA相关的组蛋白修饰
Para_14
许多研究表明,长非编码RNA可以通过结合组蛋白参与基因转录调控。 在这里,我们从RNAinter数据库收集了长非编码RNA-组蛋白修饰蛋白对。 总共,我们列出了48种类型的组蛋白修饰蛋白,例如H3K27ac、H3K4me1和H3K27me3。
Tissue spatial expression
组织空间表达
Para_15
LncRNA在不同组织中的空间表达模式对于揭示或研究不同组织中LncRNA的功能至关重要。 更重要的是,LncRNA的空间表达模式为疾病机制提供了重要的生物学线索,并指明了组织特异性的治疗靶点。 我们从lncSpA数据库下载了LncRNA-组织关系数据,该数据库旨在提供人体38种不同正常组织、33种成人癌症类型及7种儿童癌症类型中LncRNA的空间表达图谱。 我们根据组织名称对所有空间表达模式进行了分类。
Transcription co-factors
转录共因子
Para_16
许多研究表明,在转录调控程序中,主要的调控因子是转录因子(TFs)、转录共因子(TcoFs)和染色质调控因子(CRs)。 转录因子通常以协同方式结合到远端DNA元件上,通过招募相互作用的转录共因子来调控基因表达。 在这里,我们从TcoFBase收集了基因表达推断/TcoF ChIP-seq/实验验证的TcoF-lncRNA关系。 我们根据TcoF名称定义了lncRNA集合。
Tumor metastasis
肿瘤转移
Para_17
许多研究表明,长非编码RNA(lncRNAs)是多种癌症转移事件中的关键调控因子或生物标志物,如癌细胞侵袭、内渗、外渗和增殖,这些过程可以协同促进恶性肿瘤扩散并导致大量患者死亡。 在这里,我们从lncRNAWiki 2.0和LncR2metasta收集了lncRNA-肿瘤转移事件或癌症类型的信息。
ceRNA
竞争性内切RNA
Para_18
ceRNA 是长链非编码RNA(lncRNAs)中一种被广泛研究的作用机制。 根据ceRNA理论,lncRNAs可以通过竞争性地结合内源性miRNA来阻止下游mRNA的降解。 作为miRNA海绵,lncRNA在不同组织或细胞中发挥着至关重要的作用。 因此,我们将ceRNA相关部分分为三类,命名为细胞、癌症和miRNA。 在这里,我们从多个数据来源收集了ceRNA对,包括LnCeCell和LncACTdb3.0等数据库
m6A modification
m6A修饰
Para_19
m6A 是真核RNA中最丰富的内源性化学修饰。 大量研究表明,异常的m6A修饰是包括乳腺癌、肺癌、急性髓系白血病和肝细胞癌等肿瘤发生和发展过程中的关键因素。 RNA上的m6A修饰的丰度及其效应是由不同类型的调节因子之间的复杂相互作用决定的,包括甲基转移酶(‘写入者’)、RNA结合蛋白(‘读取器’)和去甲基化酶(‘擦除器’)。 理解这些不同的m6A调节因子将极大地增加我们对RNA甲基化在基因表达调控及各种生物过程中作用的认识。 在这里,我们从M6A2Target收集了m6A修饰信息。
Splicing events
剪接事件
Para_20
先前的研究已经证明,不同亚型的长非编码RNA(lncRNAs)在肿瘤发生过程中表现出独特的甚至相反的功能。 特定癌症类型中lncRNAs的偏好剪接模式有助于探索非编码序列的模块化功能。 我们从LncAS2Cancer数据库下载了超过30种癌症类型的全部与lncRNA相关的剪接事件。 我们将所有与lncRNA相关的剪接事件分为八种类型,包括:外显子跳跃(SE)、替代5′剪接位点(A5SS)、替代3′剪接位点(A3SS)、内含子保留(RI)、互斥外显子(MXE)、替代转录起始位点(altTSS)、替代转录终止位点(altTTS)和复杂剪接(ComplexAS),这些数据来源于六种不同的方法(rMATS、MAJIQ、SEASTAR、Dapars、SUPPA2和BRIE)
Chromatin regulators
染色质调控因子
Para_21
CRs 是表观遗传学中至关重要的上游调控因子,它们可以通过调控组蛋白修饰和染色质重塑来作为基因转录的主要控制器。 根据在表观遗传学中的调控作用,CRs 通常被分为三大类:DNA 甲基化酶、组蛋白修饰酶和染色质重塑酶。 长非编码 RNA 的转录受到多种 CRs 的调控。 在这里,我们从 CRdb 收集了由 CR ChIP-seq 支持的 CR-lncRNA 关系。 我们根据 CR 的名称划分了 lncRNA 集合。
Para_22
此外,所有参考收集的详细描述、方法及数据处理的软件版本均提供于补充材料和补充表S3中。
Database improved user interface
Updated search interface for lncRNA sets
更新的长非编码RNA集合搜索界面
Para_23
LncSEA 2.0 在1.0版本的基础上改进了搜索功能,提供了三种查询模式:‘按lncRNA搜索’、‘按基因组区域搜索’和‘按基因组序列搜索’。 其中,我们增强了基于基因组区域的查询方法。 与LncSEA 1.0相比,LncSEA 2.0不仅支持单个区域查询,还提供了多个区域查询功能供用户使用。 此外,我们优化了结果页面,显示了查询到的所有相关集合及lncRNA的基本信息。 如果用户想了解更多关于特定lncRNA的详细信息,可以通过点击lncRNA名称的超链接,查看所选lncRNA更详尽的信息,包括相关数据集(无数据的类别将不显示)以及在相关集合中的lncRNA数据量分布。 用户可以点击感兴趣集合的条形图,快速跳转至展示该集合名称、类别、子类别、注释信息等的对应模块。
Updated lncRNA set browser
更新的长非编码RNA集合浏览器
Para_24
LncSEA 2.0改进了浏览页面上筛选按钮的显示模式。 与LncSEA 1.0中的滚动模式相比,LncSEA 2.0选择了分页模式。 此外,在现有的选择筛选模式基础上,用户可以点击右上角的搜索图标进行‘模糊搜索’,这使他们能够通过不确定的类别或子类别名称搜索相关条目。 他们可以从候选列表中进一步选择过滤条件。 最终的过滤结果将以交互表格的形式展示。 更重要的是,LncSEA 2.0提供了下载每次过滤操作结果的功能。
New online enrichment analysis tools for lncRNA sets
针对长非编码RNA集合的新在线富集分析工具
Para_25
LncSEA 1.0 为用户提供了一种基于超几何检验的富集分析方法。 在 LncSEA 2.0 中,我们新增了基因集富集分析(GSEA)和基因集变异分析(GSVA),用于长链非编码 RNA 集的富集。 GSEA 要求用户提供两列信息:第一列应包含长链非编码 RNA 基因名称,第二列应包含基因差异分析指标(可以是对数 2 折变化(FC)或 -log P 值)。 通过选择相关参数和感兴趣的集合,LncSEA 2.0 将展示相关集合的富集分析结果,包括摘要表和富集图。 对于 GSVA,用户需要提供一个基因表达谱,其中行作为长链非编码 RNA,列作为样本。 在选择感兴趣的样本和相关参数后,LncSEA 2.0 将显示所有样本中每个集合活性的热图,并提供浏览摘要表。 同时,LncSEA 2.0 提供了用户自定义集合大小的选项。 更重要的是,LncSEA 2.0 提供了所有分析结果的下载功能。
Case studies
案例研究
Para_26
长非编码RNA(LncRNAs)已成为广泛研究的主题,并逐渐被认为是在疾病治疗中具有潜力的治疗靶点。 LncRNAs可以通过多种机制参与疾病的起始和发展,包括调控基因表达、调节信号传导途径以及改变染色质构象。 因此,研究LncRNAs与疾病之间的关系对于发现新的临床治疗靶点具有重要意义。 近年来,许多研究已鉴定出与各种疾病相关的LncRNAs,并探讨了它们在疾病进展中的作用机制。 通过研究LncRNAs的表达模式和功能,可以发现与疾病相关的新靶点,从而推动LncRNA相关治疗药物的发展。 在此,我们对结直肠癌(CRC)中的LncRNAs进行基因集富集分析(GSEA),以验证LncSEA 2.0在癌症生物学中的能力。
Para_27
首先,我们从TCGA下载并合并了结肠和直肠癌的lncRNA表达谱。 随后,我们对lncRNA进行了差异表达分析,并根据FC得分对lncRNA进行排序。 然后我们将排序后的lncRNA列表输入并点击‘RUN’来执行GSEA。 在分析界面中,左侧面板显示包括‘突变’、‘RNA蛋白质相互作用’、‘RNA-RNA相互作用’、‘肿瘤转移’、‘疾病类型’、‘ceRNA’等在内的33个类别。(图2A和补充表S2)。 当点击‘疾病类型’时,五个‘结直肠癌’集合显著富集,这些集合分别来自MNDR3.1、LncRNAWiki 2.0、Lnc2Cancer 3.0、EVLncRNAs 2.0和NONCODE 6.0子类。 通过选择‘结直肠癌’集合名称,加载了该集合中所有lncRNA的收集详情。(图2B)。 所有的富集分析结果通过气泡图、条形图和富集得分图展示出来。(图2C)。 此外,我们在结直肠癌中鉴定了28个核心lncRNA。 例如,HAND2-AS1通过调控miR-20a抑制5-氟尿嘧啶耐药性。 同时,我们也观察到miR-20a在‘ceRNA’类别中的富集。 一些研究表明,由于ELFN1-AS1控制Meis1的表达,针对ELFN1-AS1的药物可能具有细胞生存和奥沙利铂耐药性的潜力。 结肠是肿瘤转移常见的部位。 结肠肿瘤可能会转移到其他器官。 在‘肿瘤转移’类别中的富集分析结果显示潜在的肺部和膀胱转移,以及女性可能发生的卵巢转移。
图 2. 结直肠癌 lncRNA 的富集分析结果。(A)输入的结直肠癌数据及‘疾病’类别的富集分析结果表。(B)‘结直肠癌’集合的详细信息表。(C)对‘疾病’类别进行的富集分析验证结果。(D)富集分析结果。
Para_28
长非编码RNA(lncRNAs)被认为是疾病中的关键调控因子,并已被证实通过多种生物学功能参与病理过程。 我们将所有关联分类,依据长非编码RNA在人类疾病中所介导的生物学功能是否有正面(+)或负面(-)影响。 在‘实验验证功能’类别中,葡萄糖代谢过程和WNT/β-连环蛋白信号通路呈现正相关,而细胞转移则呈现负相关。 此外,MIR22HG在细胞转移集合中富集。 文献确认MIR22HG能够促进肿瘤内CD8 T细胞的存在。 MIR22HG与PDL1抑制剂的注射能有效抑制肿瘤细胞,这表明MIR22HG与PDL1抑制剂联合治疗在结直肠癌中的潜力。
Para_29
lncRNA在不同组织中的空间表达模式对于揭示或研究lncRNA在各种组织中的功能至关重要。 此外,lncRNA的空间表达模式为疾病机制和组织特异性治疗靶点提供了重要的生物学线索。 ‘组织空间表达’类别显示结肠具有最高的富集分数。 研究表明,TcoF在结直肠癌的发生和发展中起着关键的调控作用。 例如,转录辅因子TDG通过DNMT3A-TIMP2轴抑制人结肠癌细胞的迁移和侵袭,有可能作为结直肠癌发展和治疗的一种前景广阔的治疗策略。 此外,敲除转录辅因子CCNK可以减少体内的CRC细胞增殖和肿瘤生长。 研究转录辅因子在结直肠癌中的功能和机制有助于深入了解该病的发病机制,并为结直肠癌的诊断和治疗提供新的目标和策略。 文献已经验证了lncRNA HOTAIR与TcoF DEPDC1之间的调控关系。 CCAT1与HOTAIR联合使用对早期结直肠癌具有较好的诊断效果。 免疫系统基因调控模式的紊乱被认为是多种癌症发展的主要原因。 识别和表征与lncRNA相关的潜在调控因子对于癌症免疫治疗至关重要。 在‘癌症免疫学’类别中,我们成功地在七个展示集合中富集了TCGA-COAD和TCGA-READ,表明相关lncRNA在结直肠癌免疫细胞中高度富集。 文献也证实了结直肠癌可以采用免疫治疗策略。 在TCGA-COAD中富集的lncRNA HAND2-AS1已经被文献验证为COAD EMT相关lncRNA的早期诊断生物标志物。 此外,HAND2-AS1出现在TCGA-READ核心富集lncRNA列表中,但其应用尚未得到广泛研究,这表明HAND2-AS1可能作为直肠癌的诊断标志物。 在与TCGA-COAD和TCGA-READ集合相关的lncRNA中,MIR22HG最近被报道为一种肿瘤抑制因子,可促进结直肠癌的免疫治疗。 一些研究表明,在TCGA-READ中富集的lncRNA MIR100HG可以在体外和体内维持对西妥昔单抗的耐药性,促进结直肠癌细胞的侵袭和转移。 从上述分析可以看出,部分分析结果与我们的假设一致(图2D)。
Conclusions and future extensions
Para_30
随着对长非编码RNA(lncRNA)的研究迅速积累,我们获得了大量新的见解。 我们开发了LncSEA 2.0,这是一个更新的平台,通过广泛收集和处理公共数据资源以及纳入使用生物信息学工具预测的额外lncRNA参考集来扩展其应用范围。 LncSEA 2.0更新和扩展了现有的lncRNA集合,并新增了15类lncRNA集合。 具体来说,LncSEA 2.0收集了大量的与表观遗传调控相关的lncRNA集合,例如多种转录调节因子(TF、TcoF和CR)集合,它们可以协同结合到DNA顺式调控元件上以调控下游的lncRNA。 更新的平台上还嵌入了大量的与肿瘤免疫相关的lncRNA集合。 lncRNA在肿瘤免疫调控中发挥关键作用,改变T细胞亚群的平衡及其凋亡的敏感性,形成新的肿瘤免疫逃逸机制。 LncSEA 2.0还新记录了许多在转录后水平发挥作用的lncRNA,例如ceRNA和m6A修饰相关的lncRNA集合。 此外,LncSEA 2.0引入了各种富集分析方法,有助于进一步探索lncRNA的功能性。
Para_31
未来,我们将继续与长链非编码RNA(lncRNA)相关的研究进展保持一致,以满足对精确数据日益增长的需求,这由不断积累的lncRNA见解所驱动。 此外,我们将持续更新LncSEA数据库,以提供全面和最新的数据集资源。 鉴于当前数据集的复杂性,从多个来源整合信息并对来自不同来源的lncRNA集合赋予更大权重是一种可行的解决方案。 然而,考虑到数据规模的广泛性,我们可能会在后续版本中开发相关的评分和整合策略。 此外,尽管当前版本包含全面的人类lncRNA参考集合,但其他模式生物在生物学和医学研究中同样重要。 因此,我们计划在下一版本中纳入更多模式生物。
Para_32
总之,LncSEA 2.0 提供了更为全面的长非编码 RNA 参考资源,增强了数据处理工作流程和网站功能,并引入了额外的富集分析方法。 我们相信 LncSEA 将继续促进对长非编码 RNA 功能的探索。
Data availability
Para_33
研究社区可以在 LncSEA 2.0 中无需注册或登录即可自由访问信息。 LncSEA 2.0 的网址是 http://bio.liclab.net/LncSEA/index.php。
Supplementary data
Para_34
补充数据可在 NAR 在线获取。