文章标题:Identification of endocrine-disrupting chemicals targeting key OP-associated genes via bioinformatics and machine learning
中文标题:通过生物信息学和机器学习鉴定靶向关键 OP 相关基因的内分泌干扰物
发表期刊:Ecotoxicology and Environmental Safety
发表时间:2024年10月
影响因子:6.2/Q1
骨质疏松症 (OP) 是一种主要影响绝经后妇女的代谢紊乱,在过去几十年中,诊断和治疗取得了长足的进步。然而,遗传因素和内分泌干扰物 (EDC) 在 OP 发病机制中错综复杂的相互作用仍未得到充分阐明。本研究的目的是检查可能影响 OP 发病机制的环境污染物及其调控机制,以便为 OP 个体的针对性预防和医疗管理建立理论基础。
研究方法
利用 CTD 和 GEO 数据集,进行网络毒理学和生物信息学分析,从 98 个共相关基因库中鉴定目标基因。随后,采用多机器学习算法开发了一种新的预测模型。根据受试者工作特征曲线下面积验证模型的有效性。最后,采用实时定量聚合酶链反应 (qRT-PCR) 确认临床样本中关键基因的表达水平。我们确定了与 OP 相关的重要基因 (FOXO3 和 LUM),并进行了基因本体论、京都基因和基因组百科全书富集分析、免疫浸润分析和分子对接分析。此外,分析了关键基因与免疫浸润细胞的相关性,筛选与关键基因有关的环境污染物,建立环境污染物-基因-OP 网络。最后将环境污染物中的11种内分泌干扰物 (EDC)与关键基因进行分子对接分析。
结果分析
1. 集成基因表达数据预处理
为了全面了解所有样本中与 OP 相关的基因,调整并合并了两个数据集的表达谱。使用从这些数据集获得的数据为 GSE7158 和 GSE56815 生成箱线图(图 2A、B)。研究结果表明,通过 PCA 消除批次效应后,两个 OP 基因数据集之间的批次效应差异显着减少。数据集中的所有样本都实现了可接受的均匀性(图 2C、D)。
2. Op 共相关基因采集
通过差异表达分析过程,系统比较了从 OP 获得的样品,发现了 1229 个 DEGs,包括 627 个表现出下调的基因和 602 个表现出上调的基因。描绘 DEG 的火山图突出显示了前 5 个上调和前 5 个下调的 DEG(图 2E)。随后对 GEO 数据的差异基因表达分析,结合 CTD 数据库的搜索和筛选,通过两个数据集的交集产生了 98 个与环境化学物质对 OP 影响相关的常见基因。
3. 机器学习模型的选择和操作概率柱图的构建
使用来自 98 个交叉基因的数据开发了四种机器学习预测模型,即 RF、SVM、GLM 和 XGB。通过分析 ROC 曲线、残差箱形图和逆累积分布图,确定 RF 方法表现出最高的准确性、最大的 ROC 曲线下面积 (AUC) 以及最低的残差和逆累积值(图 3A-C)。因此,RF 模型被选为进一步开发的最佳选择。随后,利用 RF 模型计算特征基因的重要性得分,从而鉴定出 10 个关键特征基因:FOXO3、PLA1A、SULT2A1、S100A9、XDH、F3、ID1、CCL20、LUM 和 IL33(图 3D)。为了估计 OP 患者的患病率,利用前五个基因 (FOXO3 、 LUM 、 F3 、 ID1 和 CCL20) 开发了一个诊断柱状图 (图 3E)。柱状图的 ROC 曲线的曲线下面积值为 0.86,表明预测准确性很高(图 3F)。校准曲线在 1 附近显示斜率,表明柱状图具有显著的预测效果(图 3G)。此外,DCA 结果表明与柱状图相关的有利净收益(图 3H)。
4. 关键基因的功能富集分析
我们通过 GO 和 KEGG 分析对这 5 个共表达基因的潜在功能进行了进一步研究 (图 4A、B)。GO 富集分析显示,共表达基因主要影响与细胞对肿瘤坏死因子的反应、对肿瘤坏死因子的反应、趋化性和出租车相关的生物过程。此外,KEGG 富集分析表明,共表达基因主要影响趋化因子信号通路。
5. 免疫浸润分析
采用 ssGSEA 算法量化对照和 OP 样本中 28 种免疫细胞浸润比例,发现在 OP 和对照样品之间的不同免疫细胞亚型中观察到显著差异(图6A)。分析FOXO3 和 LUM这两个特征基因和免疫细胞之间的相关性(图6B)。
6. DEGs的化学-基因相互作用分析
最初,对环境污染与基因之间的关系进行了分析。据观察,环境污染化学物质对几个关键基因有影响,例如 FOXO3、LUM、F3、ID1 和 CCL20(图 7A-E)。为了研究环境污染化学品与 OP 之间的关系,我们开发了一个环境污染化学品-基因-OP 网络,通过分析环境污染化学品与关键基因之间的相互作用来识别 OPs。研究结果表明,根据 CTD 的数据,41 种环境污染化学物质与关键基因有关(图 7F)。
文章小结
地塞米松、全氟壬酸、染料木黄酮、镉和双酚 A 在内的 EDC 可以被确定为影响 OP 的重要环境污染物,并且 FOXO3 和 LUM 有可能成为 OP 的诊断标志物。这些结果阐明了关键基因调控的 EDC 与 OP 发作之间的新关联。如果您对生信分析和公共数据库挖掘感兴趣,但时间和精力有限或者缺乏相关经验,小骨非常乐意为您提供如下服务:免费思路评估、付费方案设计和生信分析等,有意向的老师欢迎联系小骨哦!