点击“蓝字”关注,更多精彩内容!
摘要:钙化性主动脉瓣疾病(CAVD)是一种以主动脉瓣钙化为主要特征的心脏瓣膜疾病,导致主动脉瓣硬化和功能障碍。CAVD在老年人群中普遍存在,与高血压、血脂异常、吸烟和遗传易感性等因素有关,并可能导致日益严重的经济和健康负担。主动脉瓣一旦发生钙化,必然会发展为主动脉狭窄。目前,还没有药物可以有效地控制或延缓疾病的进展。在这项研究中,我们从GEO数据库中挖掘了与CAVD相关的四个公开的数据集(GSE12644、GSE51472、GSE77287、GSE233819),目的是鉴定与CAVD发生相关的关键基因,为CAVD的早期预防和诊断寻找可能的生物学靶点。本研究为CAVD的治疗和预防的靶点提供了初步证据,为后续的生物学研究提供了坚实的基础。
关键词:钙化性主动脉瓣疾病;关键基因
1.介绍
钙化性主动脉瓣疾病(CAVD)是一种常见的心血管疾病,主要由主动脉瓣异常钙化引起,称为主动脉瓣钙化(aortic valve calcification, AVC)。CAVD是一种进行性疾病,病变多见于中老年人,是心脏瓣膜疾病中的第一大疾病。研究表明,AVC表现为主动脉瓣的钙化和骨化,随着时间的推移,主动脉瓣环扩张,最终导致主动脉瓣狭窄(aortic valve stenosis, AS),影响血流,最终导致心力衰竭。虽然在病理和流行病学研究方面取得了一些进展,但对该病的发病机制和预防方法仍不清楚。
研究表明,线粒体功能障碍和氧化应激在CAVD发展的病理生理机制中起着重要作用。氧化应激触发炎症反应,导致瓣膜细胞凋亡和细胞损伤。此外,高血压和炎症反应是CAVD的潜在危险因素。除此之外,研究表明脂质代谢异常和动脉粥样硬化在CAVD的发生和发展中起关键作用。在CAVD中,研究已经观察到类似动脉粥样硬化的病理过程。由于某些危险因素(如持续多年的脂质代谢异常)和机制(如炎症反应和氧化应激),钙和磷逐渐沉积在主动脉瓣上,形成瓣膜钙化。这会导致瓣膜硬化和狭窄,最终导致心脏负荷过重和心力衰竭。
目前瓣膜置换术是治疗CAVD唯一有效的方法,其他治疗策略如药物和营养干预对CAVD治疗无效。近几年,分子靶向治疗已经缓解和治疗了许多疾病,我们也在尝试通过寻找与CAVD相关的基因靶点来提供CAVD的早期预防、诊断和治疗。在本研究中,我们从GEO数据库中选取与CAVD相关的微阵列数据集进行整合分析,筛选出与CAVD疾病发展相关的关键基因,丰富CAVD的病理生理机制,为CAVD的早期预防、诊断手段和治疗策略提供初步依据。
2.材料和方法
2.1数据读取
基因表达综合数据库(GEO)由美国国家生物技术信息中心(NCBI)托管,作为高通量基因组学数据(如微阵列和第二代测序)的全球公共档案。来自世界各地的研究人员通过上传他们的数据为这数据库做出贡献.我们在GEO数据库中检索了与CAVD相关的测序数据。我们的研究采用了以下纳入标准:(1)用于测序的组织应该是人主动脉瓣(2)每个数据集应该有钙化的主动脉瓣和健康的主动脉瓣作为对照(3)至少包含4个总样本。最终,我们找到了4个符合条件的微阵列数据集,分别是GSE12644、GSE51472、GSE77287、GSE233819。
2.2预处理
首先,我们从GEO数据库中下载了四个数据集的表达矩阵。根据临床资料,将基质分为对照组和钙化组。对表达序列矩阵进行四分位数归一化,随后进行分析。对于上述四个数据集,使用“limma”R软件包进行差异分析。差异基因(DEGs)的判定标准为:log2 fold change (FC)| > 0.585, p值<0.05。这些阈值用于筛选具有显著差异表达的基因。
2.3分析
稳健排序聚合(robust rank aggregation,RRA)算法是一种强大、可靠、灵活和易于使用的集成多个数据集的方法。采用RRA算法,可以整合多个数据集的信息,提供更全面、可靠和一致的排序结果。这有助于揭示隐藏在多个数据集中的潜在相关性和意义,为进一步的研究和实践提供有价值的指导。在本研究中,我们采用了“RRA”R包来整合和分析四个数据集。这种方法使我们能够整合来自多个数据集的信息并进行全面的分析。本研究将差异表达基因(differential expression genes, DEGs)定义为p值<0.05且FC值> 0的基因。这些标准用于鉴定具有显著差异表达的基因。
2.4 -RFE分析
基于支持向量机的机器学习方法(SVM-RFE)是机器学习领域中常用的一种技术,其灵活性和稳定性使其成为集成多数据集的有力工具。SVM-RFE是一种二元分类器,它将数据集映射到高维空间,以便于构建分离不同类别数据点的最佳分割平面。SVM-RFE可以应用于多数据集的集成,得到更准确、稳定和可靠的分类结果。利用SVM-RFE对多个数据集进行整合,可以充分利用这些数据集之间的差异性和共性,得到更全面、更准确的分类模型。在这个特殊的研究中,我们使用了“e1071”R包来合并和分析上述四个数据集。SVM精度设定为截断标准0.95。
2.5.GO和KEGG分析
基因本体论(GO)功能富集分析主要由三个部分组成:分子功能(MF)、生物过程(BP)和细胞组分 (CC)。基因通路富集分析使用的所有项均使用“enrichment”R软件包进行评估。此外,使用“enrichKEGG”R包进行KEGG分析。这些包在本研究中用来执行各自的分析。
2.6道德声明
本研究中使用的数据完全来自可公开访问的数据库。本调查不包括任何与动物或人类有关的研究。
3.结果
3.1数据细节
本研究共纳入4个数据集,具体数据集如表1所示。
3.2数据预处理
在本研究中,我们从GEO数据库中下载了4个数据集,并分别使用RRA和SVM-RFE对这4个数据集进行了分析。RRA分析得到211个差异表达基因(DEGs), SVM-RFE分析得到150个差异表达基因(差异表达基因(DEGS)s),用两种方法得到的差异表达基因(DEGS)s的交集,得到4个基因作为CAVD的枢纽基因。具体过程如图1所示。为了减轻批量效应的影响,前面提到的四个微阵列数据集最初使用分位数方法进行归一化。标准化过程目的是对齐数据集的分布。这标准化过程的结果如图2所示。
3.3结果在RRA综合分析
通过在RRA分析中应用p值<0.05和log2 fold change (FC)| >0的显著性阈值,我们共鉴定出211个关键基因。其中,73个基因上调,138个基因下调。有关差异表达基因(差异表达基因(DEGS)s)的详细信息,请参见补充表1-2。结果表明,通过RRA分析方法获得的前10位上调基因分别为TIAM2、PER3、FAM111B、IRAG2、MMP13、PKHD1L1、GPX5、PROSER1、FBXO25、GPR12。下调最多的10个基因分别是PLN、DMPK、EMX2、SNRNP25、ATP13A2、FCGBP、CACNA1C-IT3、UBASH3B、CXCL9、PRND。我们分别选取前10位上调基因和前10位下调基因进行可视化,结果见图3。在图3的热图中,方框中的数字代表基因变化的多样性,并按列规范化。红色框中数字代表基因的上调,因此,框内的数字为正。反之,蓝框中数字代表该基因下调,其内部对应为负值。盒子的颜色深浅反映了基因变化的大小;较浅的颜色表示变化的倍数较小。在没有基因改变的情况下(倍数= 0),白色表示这种状态。
3.4.SVM-RFE综合分析结果
在进行SVM-RFE分析之前,使用“sva”R包中的“combat”函数消除四个数据集的批次效应。除过程该批次效应的结果如图4所示。我们以Accuracy = 0.95作为截断标准,对4个数据集进行整合后,最终发现前150个基因是关键基因,结果如图5和补充表3所示。
3.5.GO和KEGG富集分析
通过基因本体论(GO)函数注释分析和京都基因组数据库(KEGG)富集分析共分析了361个差异表达基因(DEGS)s,其中RRA分析结果获得211个差异表达基因(DEGS)s, SVM-RFE分析结果获得150个差异表达基因(DEGS)s。结果表明在生物过程中血管生成(GO:0045765)最为显著,细胞外区域(GO:0005576)在细胞组成中最为显著,信号受体活性(GO:0038023)在分子功能中最为显著。GO结果如图6A所示。此外,我们展示了通过KEGG富集分析的前10条通路,其中排名第一的途径是Focal adhesion (hsa04510),其次是ECM-receptor interaction (hsa04512)。KEGG结果如图6所示。最后,我们将RRA分析得到的差异表达基因(DEGS)s与SVM-RFE分析得到的差异表达基因(DEGS)s进行交集,得到4个关键基因,并将其作为影响CAVD发展的关键基因。
4.讨论
CAVD已成为全球许多慢性疾病的焦点,包括但不限于慢性肾衰竭、糖尿病、冠状动脉疾病和各种其他疾病,在临床实践中非常常见,患者往往进展为主动脉狭窄,继发于心力衰竭,最终导致死亡。CAVD的病因是复杂的,包括多种因素。随着年龄的增长,瓣膜细胞的生长逐渐减缓,瓣膜细胞的维护不能及时修复损坏的瓣膜。脂质代谢紊乱、生活方式和环境因素也会影响AVC的发展,如高脂肪饮食、吸烟、缺乏体育锻炼和氧化应激。目前还没有单一的药物可以减缓CAVD的进展,主动脉瓣置换术是目前唯一有效治疗CAVD的策略。然而,随着科学技术的发展,基因组学、转录组学、蛋白质组学等测序工具已被应用于多种疾病,并发现了可能的治疗靶点。为了应对这种情况,前几代人做出了许多努力。在本研究中,我们检索了GEO数据库中所有关于CAVD的微阵列数据,最终选择了四个数据集用于本研究。在我们的研究中,我们采用RRA方法和SVM-RFE方法分别对四个数据集进行整合和分析。RRA分析得到211个差异表达基因(DEGs), SVM-RFE分析得到150个差异表达基因(DEGs),将两种方法得到的差异基因进行交集,最终鉴定出与CAVD、NEURL2、APCDD1L、VMO1、CYB5A相关的4个枢纽基因。
NEURL2位于人类1号染色体上,负责编码一种在各种生物过程中至关重要的蛋白质。具体来说,它在神经元的发育和分化、肌原纤维组织的调节以及中上部肌肉的发育中起着重要作用。研究表明,NEURL2在神经系统的形成和成熟中起着至关重要的作用,其在神经元分化和迁移中的调节作用也证明了这一点。NEURL2编码一种参与肌原纤维组织调节的蛋白质。它在肌纤维分化和成熟过程中起着重要作用。该蛋白可能是横纹肌肉瘤中E3泛素连接酶复合物的组成部分,在肌肉发生过程中调节泛素介导的β-结合蛋白降解,介导蛋白质泛素化,并通过识别和定位底物和泛素结合酶来促进催。此外,NEURL被认为参与突触形成和突触传递的过程。突触是神经元之间传递信息的重要连接点,在学习、记忆等认知功能中起着关键作用。目前尚未发现NEURL2与CAVD之间存在直接相互作用的证据,需要进一步完善生物学实验来探索NEURL2与CAVD之间的关系。
APC下调1样(APCDD1L)是一种扩展的非编码RNA分子,在胚胎发育、细胞分化、肿瘤发生等多种生物过程中具有重要意义。APCDD1L具有与Wnt蛋白结合的能力,并积极参与Wnt信号通路的负调。APCDD1L在恶性肿瘤的控制中也起着重要的作用。研究发现,APCDD1L基因对癌细胞的增殖、侵袭和转移具有抑制作用。该基因的突变或失活可能导致多种类型肿瘤的发生和发展。APCDD1L在肾透明细胞癌、胶质母细胞瘤、肺鳞状细胞癌、甲状腺癌等多种癌症的发生发展中发挥重要作用。除此之外,APCDD1L还参与了获得性化学耐药的发展。在两项测序研究中,APCDD1L在CAVD中均有差异表。尽管其明确的潜在机制尚不清楚,但上述证据有力地表明APCDD1L极有可能与CAVD的发生和发展有关。我们的研究进一步证实了APCDD1L作为关键基因在CAVD发病和进展中的关键作用,后续有必要继续完善生物学实验来探索APCDD1L参与CAVD的生物学机制。
卵黄膜外层1同源基因(VMO1)是一种蛋白质编码基因。研究表明,VMO1通过调节细胞周期,控制细胞生长分裂,促进细胞正常生长发育,在细胞分裂中发挥重要作用。多项研究提供了VMO1突变与特定癌症类型发病相关的证据,这些突变可能导致VMO1基因功能的改变,进而影响正常细胞的分裂和生长,促进肿瘤的形成,如肺腺癌、卵巢癌和上消化道癌。此外,研究发现VMO1参与视网膜稳定,其突变可导致视网膜病变。目前还没有发现VMO1与CAVD直接相互作用的证据,需要进一步完善生物学实验来探索VMO1与CAVD之间的关系。
细胞色素B5A型(CYB5A)是一种蛋白质编码基因。它编码的蛋白质被称为细胞色素b5, CYB5A基因在人体中广泛表达,在几个生物过程中起着关键作用。大量研究表明,CYB5A参与线粒体功能的维持,该基因的改变可能导致线粒体功能障碍。细胞色素b5蛋白通过其还原能力参与电子传递过程。它与其他蛋白一起作为辅助因子参与多种代谢途径,包括细胞色素p450催化的药物代谢和色素合成。大量科学研究证明,CYB5A基因编码的蛋白对脂质代谢具有基础性影响。参与胆固醇代谢、脂肪酸合成与代谢、类固醇激素合成。细胞色素b5蛋白通过提供电子转移功能来调节这些代谢途径.此外,CYB5A在肺腺癌和肝细胞癌的发生和发展中发挥了重要作用,强调了其在这些恶性肿瘤的发病机制中的重要作。CYB5A虽然不直接参与CAVD的发生发展,但其参与氧化应激、线粒体功能维持、脂质代谢等都是CAVD发生的高危因素。基于上述发现,我们有理由假设CYB5A可能积极参与钙化性主动脉瓣疾病(CAVD)的发生和进展,并可能作为该疾病的有希望的治疗靶点。当然,这个假设还需要大量的生物学实验来验证。
本研究旨在确定与钙化性主动脉瓣疾病(CAVD)相关的关键基因,并探索了治疗和预防干预的潜在靶点。利用生物信息学方法RRA和SVM-RFE筛选与人类CAVD发生和发展相关的差异表达基因(DEGs)。基因本体论(GO)功能富集分析表明,差异表达基因(DEGs)主要富集在血管生成(GO:0045765)、细胞外区域(GO:0005576)和信号受体活性(GO:0038023)等过程中。此外,KEGG分析显示,差异表达基因(DEGs)主要富集于黏着斑(hsa04510)和细胞外基质受体相互作用(hsa04512)等途径。在CAVD缺乏药物治疗方式选择的情况下,我们对CAVD发生发展相关关键基因的筛选,不仅丰富了CAVD的生物学发病机制,也为CAVD的早期发现和治疗提供了潜在靶点和初步证据。
述评
CAVD是一种进行性和退行性疾病,可导致瓣膜狭窄和功能不全,其早期迹象以炎症、纤维化和小叶运动受损为特征。目前,CAVD最常见的治疗方法是主动脉瓣(AV)置换,可通过手术或经导管介入进行。CAVD发病机制尚未明确,临床上缺乏有效预防或抑制CAVD发展的药物。本文通过生物信息学方法探索了CAVD治疗和预防的潜在靶点。使用了RRA-整合基因的表达,机器学习SVM-RFE算法筛选基因,去除不必要的特征降低过拟合的风险。对差异基因进行了GO和KEGG富集分析。作者将生物信息学和机器学习技术相结合,筛选了CAVD关键基因,为CAVD的早期发现和治疗提供了潜在靶点和初步证据。后续还可以对关键基因进一步构建和评估预后模型,为个性化治疗提供了潜在工具。并进行外部验证,以确保其稳健性和普适性。
原始文献
Lai, QC, Zheng, J, Mou, J, et al. Identification of hub genes in calcific aortic valve disease. COMPUT BIOL MED. 2024; 172 COMPUT BIOL MED. doi: 10.1016/j.compbiomed.2024.108214
声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。