英文标题:Population-wide DNA methylation polymorphisms at single-nucleotide resolution in 207 cotton accessions reveal epigenomic contributions to complex traits
发表期刊:Cell Research
影响因子:28.1
发表时间:2024年12月
研究机构:浙江大学农业与生物技术学院
涉及组学:全基因组重测序、DNA甲基化测序、转录组测序等
涉及算法:GWAS、eQTL、EWAS、eQTM、深度学习模型DeepFDML等
DNA甲基化在作物发育中发挥着多种调控作用。然而,在自然作物群体中,甲基化多态性与遗传多态性、基因表达和表型变异之间的关系在很大程度上仍不清楚。
来自浙江大学方磊/张天真等团队从207份棉花材料开花后20天(DPA)纤维中获得的高质量DNA甲基化测序、转录组测序和全基因组测序的组学数据,并将群体遗传学的经典框架扩展到表观遗传学领域。本研究鉴定出超过2.87亿个单甲基化多态性位点(SMPs),其数量是单核苷酸多态性位点(SNPs)的100倍。这些SMPs在基因内区域显著富集,而在转座子区域则相对较少。关联分析进一步确定了总共5,426,782个顺式甲基化数量性状位点(cis-meQTLs)、5078个顺式表达数量性状甲基化位点(cis-eQTMs)和9157个表达数量性状位点(eQTLs)。值得注意的是,36.39%的cis-eQTM基因与遗传变异无关联,这表明大量与基因表达变异相关的SMPs独立于SNPs。
此外,在与产量和纤维品质性状相关的1715个表观遗传位点中,只有36个(2.10%)与全基因组关联研究(GWAS)位点相同。多组学调控网络的构建揭示了43个可能参与纤维发育的cis-eQTM基因,这些基因无法仅通过GWAS鉴定。在这些基因中,通过基因编辑成功验证了一个编码CBL互作蛋白激酶10的基因在纤维长度调控中的作用。
因此本研究结果证明,DNA甲基化数据可作为育种的额外资源,并为加强和加速作物改良进程提供机会。
本研究以包含207份材料的陆地棉核心种质群体(CUCP1)为对象,对其开花后20天(20-DPA)纤维进行全基因组重亚硫酸盐测序(WGBS)和转录组测序(RNA-seq),同时进行全基因组测序(WGS)获取单核苷酸多态性位点(SNPs)。
DNA甲基化测序数据显示棉花基因组呈现高度甲基化,尤其是异染色质区域,且207份材料在全基因组范围内存在胞嘧啶甲基化变异。
基于单甲基化多态性位点(SMPs)的系统发育分析将材料分为四个分支,与材料系谱一致。SMPs数量远多于SNPs,且SMPs的次要等位基因频率(MAF)在不同基因组特征中存在差异,在基因内区域富集,转座子区域相对较少。
甲基化不平衡(MD)分析表明其衰减速度快于连锁不平衡(LD),且CHH的MD低于CHG和CG,说明DNA甲基化是基因内区域变异的重要来源。
为研究遗传对DNA甲基化的影响,选择全基因组随机抽样50,000个CG-SMP、CHG-SMP和CHH-SMP(分别占每种 SMP类型的0.31%、0.15%和0.021%)来重新评估顺式cis-meQTL和反式trans-meQTL效应。
随后SMPs采用fastQTL软件进行meQTL分析,发现顺式meQTL(cis-meQTL)比反式meQTL更显著,进一步选择cis-meQTL进行分析,其在基因组中的分布不均匀(仅一小部分DNA甲基化位点即CG、CHG和CHH位点的5.82%、2.64%和1.52%)被发现涉及顺式-meQTL。
这些顺式-meQTL在染色体末端密度较高,且在基因内区域富集,在转座子区域显著减少。
本研究总共注释了21,181个长非编码RNA (lncRNA)。检索了在超过 5% 的人群中表达的 41,632 个PCG和5469 个lncRNA,用于确定 eQTL和eQTM。通过eQTM分析探究DNA甲基化对基因表达的影响,共鉴定出5078个顺式eQTM(cis-eQTM),涉及2619个基因,这些基因在长链脂肪酸代谢、毛状体分支和葡萄糖稳态等过程中富集,可能与纤维发育相关。
此外,与位于远端基因区域和基因体的eQTM相比,位于近端启动子的CG-eQTM和CHG-eQTM的甲基化水平与基因表达呈负相关
同时发现多数eQTM基因与CG甲基化相关,且cis-eQTMs在基因上游区域有偏向性。eQTL分析检测到9157个eQTL,进一步分为顺式和反式eQTL,对涉及DNA甲基化建立的基因进行研究,确定了部分基因的cis-eQTL和cis-eQTM。
根据eQTM基因的调控模式将其分为三类,其中仅由表观遗传调控的基因占比较大,表明DNA甲基化在基因表达调控中起积极作用。
利用常见SMPs进行全表观基因组关联研究(EWAS),得到与产量和纤维品质相关的多个EWAS位点,多数EWAS位点在不同序列上下文间相互独立,部分位点位于基因附近,不同表观等位基因对应不同性状值。
将EWAS与GWAS位点整合分析,发现两者大多独立,EWAS位点可能为性状变异提供额外调控。对EWAS位点优良表观等位基因的聚合效应分析表明,携带更多优良等位基因的材料性状表现更好,结合SNPs和SMPs可提高性状预测性能。
整合GWAS、eQTL、EWAS和eQTM等多组学数据进行关联分析,构建基因调控网络(GRN)。在遗传调控网络中,部分GWAS位点与eQTL共定位,涉及多个与纤维伸长相关的基因。
在表观遗传调控网络中,整合EWAS位点和eQTM构建网络,发现两个网络重叠基因较少,表明纤维性状调控机制复杂。位于CIPK10启动子区域的EWAS位点与纤维长度相关,CIPK10为eQTM基因,其DNA甲基化状态与基因表达和纤维产量相关,基因编辑实验验证了CIPK10在纤维长度调控中的作用。
为预测功能性SMPs,开发了深度学习模型DeepFDML,利用与CG-eQTM相关的位点作为正样本,随机选择的CG-SMPs作为负样本,对模型进行训练和评估。
结果表明,该模型可根据DNA序列模式预测功能性SMPs,功能性位点鉴定有助于理解复杂性状调控机制,基于DNA序列的预测模型对其他缺乏群体规模甲基化数据的物种研究具有重要意义。
NC:GWAS+meQTL揭示DNA甲基化在欧洲和东亚人群中大体相同
ERJ:GWAS+meQTL鉴定DNA甲基化影响气管中的哮喘风险
用户文章NC:GWAS锁定m6A甲基转移酶促进小麦感病 | m6A专题
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究! 扫描下方二维码 点分享
点点赞
点在看