NC:机器学习构建小鼠DNA甲基化非线性年龄预测分类器

企业   2024-11-18 17:10   浙江  




英文标题:Nonlinear DNA methylation trajectories in aging male mice

发表期刊:Nature Communications

影响因子:14.7

发表时间:2024年4月

研究机构:德国莱布尼茨研究院衰老研究所

涉及组学:DNA甲基化测序RRBS等

涉及算法:逻辑弹性网络回归等  



摘要
尽管DNA甲基化数据可产生高度准确的年龄预测因子,但人们对这一典型表观遗传学生物标志物在生命周期中的动态变化知之甚少。为了缩小这一差距,作者研究了雄性小鼠结肠在五个不同衰老时间点的甲基化轨迹。
研究表明,在生命的特定阶段存在突然的高甲基化事件。确切地说作者在生命早期到中期(3-9个月)和中期到晚期(15-24个月)的转变过程中确定了两个表观遗传开关,将啮齿动物的生命分为三个阶段。这些非线性甲基化动态主要影响与神经系统相关的基因,并在二价标记的染色质区域富集。基于非线性DNA甲基化修饰位点所产生的组学数据,作者构建了一个类似时钟的分类器STageR(衰老阶段估计器),可准确预测小鼠的表观遗传阶段。
作者在一个独立的小鼠队列和公开可用的数据集中证明了该甲基化时钟的普遍性。



1、衰老小鼠肠道中的差异甲基化区域

对83只雄性小鼠在5个不同年龄的结肠DNA样本进行RRBS测序,发现第一主成分与样本年龄相关,且样本可分为三个生命阶段。
确定了衰老过程中的差异甲基化区域(aDMRs),其在不同年龄组间数量有差异,且在基因功能、组织特异性方面有富集,与肠道神经系统相关基因也有关联。
aDMRs相关CpG在3月龄动物中大多未出现甲基化修饰。在全基因组水平上,aDMRs在衰老过程中逐渐高甲基化。



2、衰老过程中的非线性DNA甲基化轨迹

 

对aDMR相关CpGs聚类得19个簇,94%的C碱基被涵盖,近半呈非线性甲基化轨迹。选五个代表性簇分析,C1呈年龄相关高甲基化,C5呈低甲基化,C2、C3在3-9月龄、C4在15月龄后甲基化水平发生突变。




相关基因如Zcchc3、Nkx6-2受影响,C4与多基因相关,不同簇胞嘧啶表观遗传背景不同。C4胞嘧啶在出生时富集于二价启动子,与PRC2结合。C2和C3中的胞嘧啶则积累在近端增强子和H3K9me3相关异染色质区域,与异染色质组织和基因调控有关,且与不同转录因子结合。强调非线性甲基化轨迹对寿命阶段划分意义,及与干细胞功能、肠道神经系统的潜在联系。

 

通过分析公开可用数据集,发现5mC水平受实验条件影响,如肠道感染小鼠和结肠类器官培养物中的甲基化谱发生改变,表明 DNA 甲基化转变与细胞类型组成变化无关,且根据非线性轨迹将寿命分为三个主要表观遗传阶段,不同阶段转变相关的胞嘧啶在功能和调控上存在差异。



3、衰老过程中的非线性基因表达轨迹


 

对相关基因进行转录组测序分析,多数基因活跃,不同生命阶段甲基化变化相关基因表达有差异。聚类基因表达轨迹,确定与早-中、中-晚生命阶段转变相关基因表达簇,如CE1、CE5。
确定了在早-中生命阶段和中-晚生命阶段同时发生DNA甲基化和基因表达改变的基因,分别有27个和146个。例如,Filip1l基因在早-中生命阶段发生转变,在黏液性结肠癌中起抑癌作用。
对中-晚生命阶段轨迹上的基因构建蛋白质-蛋白质相互作用网络,发现其中66个基因存在强相互作用,且几乎所有基因在结直肠癌、肠道屏障或肠道神经系统中具有已知功能,如Reln和Ntn等基因与这些功能密切相关。
这些在基因表达和DNA甲基化水平上遵循相同非线性轨迹的基因,尤其是中-晚生命阶段相关基因,对结肠功能和癌症发生的调控至关重要,表明DNA甲基化与基因表达在衰老过程中存在紧密关联。



4、验证数据集
用20只雄性小鼠独立数据集验证,动物和测序设施与原实验不同(3、7、12、27月龄)。

 

确定验证集aDMRs,与原始数据集74%的aDMR CpGs重叠,且多数成对aDMRs可被验证。

 

验证集中年龄相关甲基化轨迹与原始集一致,不同年龄组甲基化分布相符。
验证数据集中甲基化Z-score在C1和C5簇遵循原始数据集的线性轨迹,在C2-C4簇遵循非线性轨迹,进一步证实了衰老小鼠肠道中线性和非线性甲基化动态变化的可靠性。
该验证实验为研究结果提供了有力支持,增强了对衰老过程中DNA甲基化动态变化规律的信心,表明本研究发现的甲基化模式具有一定普遍性和稳定性。



5、基于聚类的表观遗传时钟STageR


鉴于传统表观遗传时钟局限,提出STageR,基于聚类甲基化信息预测衰老阶段。STageR选特定三个非线性甲基化簇C2/C3/C4,用多项逻辑弹性网络回归预测,依据多方面观察确定簇选择。

 

在十折交叉验证中,STageR准确预测衰老阶段,模型系数反映了阶段转变特征。通过随机抽样不同数量胞嘧啶进行测试,发现每个簇至少100个胞嘧啶时,中位错误分类率小于等于10%,表明模型具有一定稳健性。

在验证数据集上,STageR对所有20个样本的衰老阶段预测准确,且能反映不同年龄样本间的相对年龄差异。即使使用不完全甲基化信息(如对验证数据集进行不同比例胞嘧啶抽样),模型仍能保持较高准确性,进一步证明其有效性和适应性

STageR在公开数据集预测成功,具通用性,克服传统时钟问题,为表观遗传年龄预测提供新工具。



相关阅读

Nat Genet:迄今最大规模的人类DNA甲基化QTL(meQTL)图谱
Nat Aging:机器学习构建新型DNA甲基化时钟来预测衰老
联川生物转录组特色专题 │ 联川只做“真”转录组,不服来辩!


本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码


点分享


点点赞


点在看


联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章