5.7/Q1,郑州大学第一附属医院通过整合转录组学分析和机器学习揭示 PCOS 与复发性植入失败之间的共享诊断基因和潜在机制

文摘   2024-09-06 18:30   陕西  

文章标题:Shared diagnostic genes and potential mechanism between PCOS and recurrent implantation failure revealed by integrated transcriptomic analysis and machine learning

中文标题:通过整合转录组学分析和机器学习揭示 PCOS 与复发性植入失败之间的共享诊断基因和潜在机制

发表期刊:Front Immunol

发表时间:20240511

影响因子:5.7/Q1

研究背景

多囊卵巢综合征 (PCOS) 是女性最常见的内分泌-生殖-代谢疾病之一,其特征是慢性无排卵、高雄激素血症和多囊卵巢形态,并且始终与肥胖、胰岛素抵抗 (IR) 和低度慢性炎症有关。PCOS 患者经常伴随各种免疫疾病,这些疾病与不孕症有关,因此会影响卵巢功能、卵母细胞质量和子宫内膜容受性 (ER)。特别是在雌激素和雄激素水平高的肥胖患者中,免疫细胞功能障碍可能导致免疫系统持续刺激,从而增加促炎细胞。

研究方法

基因表达综合 (GEO) 数据库中获得了三个 PCOS 和 RIF 数据集。通过使用加权基因共表达网络 (WGCNA) 分析差异表达基因 (DEGs) 和模块基因,功能富集分析和三种机器学习算法。使用受试者工作特征 (ROC) 曲线评估 PCOS 和 RIF 验证数据集,并获得每种疾病的想曲线下面积 (AUC) 值。此外,我们收集了健康和 PCOS 不孕妇女的颗粒细胞,以及健康和 RIF 患者的子宫内膜组织。RT-PCR 验证 GLIPR1 和 MAMLD1 的可靠性。此外,我们进行了基因集富集分析 (GSEA)免疫浸润,以探索 PCOS 和 RIF 共存的潜在机制。

研究结果

1.GEO 信息

根据我们的纳入标准,总共选择了四个数据集进行发现分析:GSE10946、GSE34526、GSE103465 和 GSE111974。一共 4 个数据集的详细信息。其中,GSE10946 和 GSE34526 作为 PCOS 的发现队列,GSE103465 和 GSE111974 被视为 RIF 的发现队列。此外,GSE80432 和 GSE26787 分别为 PCOS 和 RIF 的验证队列。在本研究中,我们将这两个疾病组简称为 PCOS 和 RIF。

2. DEG 的识别

在生物信息分析之前,我们测试了收集到的数据集的批次效应,发现两种疾病的批次效应是明显的 .使用“sva”包,我们删除了 PCOS 的批处理效应  和 RIF 组以获得可靠的分析结果。然后使用 LIMMA 包来表征两组之间的 DEGs。获得 201 个 DEGs (P<0.05, |log2 FC|>0.585),其中 101 个上调基因和 100 个下调基因用于 PCOS。

3. WGCNA 筛选关键模块

本研究使用软阈值方法构建了一个共表达网络。该参数β对于共表达网络保持无标度拓扑至关重要。基于基因表达数据的生物网络最有可能是无标度的。因此,在 PCOS 组中,大于 0.85 的拟合指数被认为是无标度拓扑,β设置为 9。通过使用邻接函数,生成了邻接矩阵。

4. 共享基因和功能富集分析

为了探索 PCOS 和 RIF 的共发病机制,我们分别取了上述 DEGs 和 WGCNA 筛选的基因的交叉点。PCOS 和 RIF 的 DEGs 之间共有 11 个基因 (CHST11 、 FAM150B 、 GLIPR1 、 SLC16A6、 MAMLD1 、 SLC46A2、 ENPP3 、 HAPLN1 、 PLCXD3 、 FAM110C 、 GAS1 )。只有一个基因与 WGCNA 分析的基因重叠 (CCND2)。我们推测这 12 个基因可能与 PCOS 和 RIF 的发病机制有关,并且具有共同关系。分析这些基因的功能注释和富集,我们试图研究 PCOS 和 RIF 之间潜在的生物学变化。

5. 根据机器学习算法识别潜在的共享诊断基因

基于上述 12 个共享基因应用了三种不同的算法 (LASSO、SVM-RFE 和 Random Forest)。将上述 12 个基因输入到 RF 分类器中,前 10 个基因显示在重要性量表上。我们选择 0.9 作为重要性的筛选阈值,并确定了一组 9 个基因。此外,SVM 算法鉴定了 5 个具有最低 5 点 CV 误差和最佳 5 点 CV 准确度。

6. 诊断中心生物标志物的诊断价值和验证

为了更准确地理解 PCOS 和 RIF 之间的关系,我们在 PCOS 和 RIF 组中进行了机器学习结果的交集,并获得了 2 个共享的诊断基因 GLIPR1 和 MAMLD1。通过分析两个基因的表达模式,评价共享诊断基因的预测和判别能力。此外,还对受试者工作特征曲线 (ROC 曲线) 进行了分析。

7. 诊断基因的单基因 GSEA

对 PCOS 和 RIF 数据集中的两种生物标志物进行了单基因 GSEA 分析,并通过 “GSEA” 包可视化了前 5 个上调和下调的通路。图 7表明在两个疾病组中,这两个基因都参与甘氨酸、丝氨酸、苏氨酸代谢、α-亚麻酸代谢和丙酸代谢等代谢途径。此外,这两个基因都富含连接 PCOS 和 RIF 的炎症相关通路。

8. 共享诊断基因的免疫浸润分析

用 CIBERSORT 分析不同组免疫细胞的丰度。在每组中,22 个免疫细胞的比例显示为条形图。通常,条形图清楚地说明了 PCOS 之间 T 细胞、巨噬细胞和 NK 细胞群百分比之间的显著差异和 RIF。与对照样品相比,PCOS 样品中激活的树突状细胞增加。而在 RIF 样品中,静息的 NK 细胞、巨噬细胞 M0 增加,NK 细胞 γ δ、树突状细胞活化减少。

9. 在人体组织中通过 RT-PCR 验证 GLIPR 和 MAMLD

对正常女性和 PCOS 患者的滤泡液来源的颗粒细胞以及健康和 RIF 女性的子宫内膜组织进行 RT-PCR。这证实了两种诊断生物标志物 GLIPR1 和 MAMLD1 的基因表达水平。与数据分析一致,我们的结果显示 GPIPR1 表达在 PCOS 患者的颗粒细胞中上调,MAMLD1 表达降低。而 GLIPR1 和 MAMLD1 在 RIF 患者子宫内膜组织中的表达均降低。

文章小结

诊断生物标志物 GLIPR1 和 MAMLD1 被确定为负责调节由 TCA 周期代谢物失衡引起的免疫细胞活化的关键生物标志物。我们的分析加强了 PCOS 患者复发性妊娠失败共发病机制的理论基础。对这种思路感兴趣的老师,欢迎联系小编!

生信库
解读生物信息分析最前沿文献和思路,提供专业的生信分析服务:思路设计,生信分析,代码复现,欢迎老师们定制分析服务
 最新文章