Cell Res IF=28.1 | 大规模植物群体单碱基甲基化测序揭示表观育种在棉花纤维改良的潜力

文摘   科学   2024-10-21 17:32   广东  

棉花是一种重要的天然纤维作物,是全球纺织业的可持续资源,同时也是研究细胞分化、伸长、细胞壁发育调控和作物多倍体化的重要模式植物。解析棉花复杂农艺性状的遗传和生物过程的分子机制,对棉花的分子育种具有重要意义。棉花纤维是通过源自种皮的细胞高度同步的分化过程形成的。这一阶段通常在花后20天左右开始在纤维的发育和成熟过程中发生表观调控。

DNA甲基化是自20世纪50年代以来研究最充分的表观遗传标记之一。研究表明DNA甲基化可调节重要的农艺性状,如开花时间、种子休眠、产量、果实成熟和作物抗逆性。然而,目前尚不清楚哪种类型的DNA甲基化对调节植物的复杂性状有更大的作用。近几十年来,虽然通过全基因组关联研究(GWAS)在了解基因组和遗传变异方面取得了重大进展,但表观基因组修饰在塑造作物表型多样性中的作用仍未得到充分探索。

2024年10月18日,浙江大学棉花精准育种团队的方磊教授和张天真教授,与中国农科院生物技术所的谷晓峰研究员及阿里巴巴达摩院顾斐团队,合作在期刊Cell Research发表题为“Population-wide DNA Methylation Polymorphisms at Single-nucleotide Resolution in 207 Cotton Accessions Reveal Epigenomic Contributions to Complex Traits”的研究论文。这是首次在作物基因组中进行单碱基水平的 EWAS (表观全基因组关联)分析,整合了从207个棉花材料的花后20天纤维中收集的甲基组、转录组和基因组数据,构建了目前作物中最大的全基因组DNA甲基化图谱,确定在纤维性状形成中发挥作用的关键基因和表观遗传调控位点,为棉花育种提供了新的基因资源和理论依据。

文章信息与样本技术方法

中文标题:207 份棉花种质全群体中单碱基分辨率的 DNA 甲基化多态性揭示表观基因组对复杂性状的贡献
发表期刊:Cell Research (IF=28.1 / SCI 一区)
技术方案:全基因组甲基化测序(WGBS)
样本类型:207 份花20天棉花纤维

结果展示

(1)DNA 甲基化变异图谱的构建与特征
棉花的基因组较大(约2.5 G),研究采用15X WGBS在 CG、CHG、CHH 三种基序分别鉴定出 6232 万、6606 万和 4.3301 亿个甲基化位点,基因组范围内 DNA 甲基化在 CG、CHG、CHH 位点分别约为 72%、55%、11%。CG甲基化与CHG甲基化更具有一致性,基因组范围内 CG DNA 甲基化与 CHG DNA 甲基化水平相关系数为 0.95,与 CHH DNA 甲基化水平相关系数为 0.22。

此外,通过分析同源染色体上每个等位基因的DNA甲基化变异,鉴定了2.87 亿个单甲基化多态性(Single Methylation Polymorphism, SMP)位点,可分为三种表观等位基因(epi-alleles),两个甲基化(MM等位基因,70% < mC%≤100%),两个未甲基化(UU等位基因,0≤mC%≤30%)和杂合(MU等位基因,30% < mC%≤70%)。基于SMPs的系统发育分析将207个物种分为4个分支。棉花基因组SMPs 的数量是SNP的100倍,SMP在特定染色体区域的复杂性远远超过SNP。

研究将连锁不平衡(Linkage Disequilibrium, LD)概念扩展到DNA甲基化标记,并称之为甲基化不平衡(Methylation Disequilibrium , MD)。MD衰减到最大值一半(约为 50bp),MD 的 CHH 低于 CHG 和 CG,且 MD 衰减显著快于 LD。此外,CHH的MD低于CHG和CG的MD。这表明CG甲基化可能相比非CG甲基化更易于遗传。

图1 棉花群体中DNA甲基化的广泛变异
(2) 遗传变异对 DNA 甲基化的影响
对287.30 万个 SMPs 进行顺式 meQTL(甲基化数量性状基因座) 分析,识别出5,426,782个顺式meQTL、5,078个顺式表达数量性状甲基化(cis-eQTM)以及9,157个表达数量性状基因座(eQTL)。仅有 5.82%、2.64%、1.52% 的 CG、CHG、CHH 位点的 DNA 甲基化位点参与 顺式meQTLs,且 顺式 meQTLs 在基因组中分布不均匀,在染色体末端附近密度较高,在基因内区域显著富集。

图2 DNA甲基化三种基序的遗传基础
(3) SMPs 在表达调控中的作用
鉴于顺式meQTL在自然种群的蛋白编码基因(PCG)中富集,探索DNA甲基化与基因表达之间的关系具有重要意义。研究利用转录组数据进行 eQTM(Expression Quantitative Trait Methylation) 分析,确定 5078 个顺式eQTMs,其中包括 3505 个 PCG - eQTMs 和 1573 个 lncRNA - eQTMs,映射到 2619 个基因,占 PCGs 的 5.69% 和 lncRNAs 的 29%。这些顺式eQTMs 基因在长链脂肪酸代谢、毛状体分支、葡萄糖稳态等过程中富集。此外,在不同的甲基化背景下,通常可以观察到顺式eQTM基因同时存在关联

图3 DNA甲基化对基因表达的影响

(4)表观基因组关联研究(EWAS)结果
顺式meQTL分析显示,大多数SMPs与遗传变异无关,表明DNA甲基化变异独立于遗传变异发生。使用 EMMAX 软件进行 EWAS分析,确定 848 个 CG - EWAS 位点(P = 6.52×10⁻⁸)、467 个 CHG - EWAS 位点(P = 3.09×10⁻⁸)、400 个 CHH - EWAS 位点(P = 4.42×10⁻⁹),共 1715 个与九个性状相关的表观遗传位点。其中 1010 个与产量相关性状有关,705 个与纤维品质有关,约 27.67% 的 CG - EWAS 位点、19.92% 的 CHG - EWAS 位点、16.19% 的 CHH - EWAS 位点位于蛋白编码或 lncRNA 基因的 2kb 侧翼区域。将 EWAS 位点与 GWAS 位点进行比较,发现 1715 个 EWAS 位点中只有 16 个(0.93%)位于 GWAS 位点附近(<20kb),表明两者大部分相互独立,只有极少数位点重合或接近。

图4 EWAS基因座分布及其对农艺性状的累积效应

(5)多组学关联分析鉴定纤维相关基因
通过整合 GWAS 位点和 eQTLs 构建基因表达的遗传调控网络(GRN)发现 51 个 GWAS 位点与 376 个 eQTLs 在同一 LD 块中共定位,对应六个纤维性状的 GRN 包含 397 个基因间的 634 个连接,其中 77 个(19.40%)eQTL 基因也是 eQTM 基因,表明这些基因表达受DNA甲基化和遗传变异的共同调控。通过整合EWAS位点和eQTM,建立了一个表观GRN,确定一个与纤维产量相关的 EWAS 位点位于 CIPK10 基因的启动子区域,该基因同时也是 eQTM 基因,通过基因编辑敲除 CIPK10 基因,发现其影响纤维长度,相比野生型显著变短。

图5 与纤维发育相关的遗传和表观遗传调控网络

(6)表观基因组关联研究(EWAS)结果
破解调控元件的功能影响是推进下一代作物育种策略的功能基因组研究的关键挑战。深度学习模型已被应用于通过整合基因组序列与分子特征来揭示遗传元件的功能模式。然而,目前尚未开发出用于预测功能性表观修饰位点的方法。因此,本研究开发了一个名为深度功能DNA甲基化位点(DeepFDML)的深度学习模型来预测与基因表达变异相关的功能性SMP,以 2336 个与 2423 个 CG - eQTMs 相关的非冗余 CG 位点为正样本,随机选择 2336 个 CG - SMPs 为负样本,对模型进行训练。通过构建卷积模型和更复杂的 DeepFDML 模型,并采用五折交叉验证方法进行评估,卷积模型在接收者操作特征曲线(ROC)和精确召回曲线(PRC)的准确率均为 0.65,先进的 DeepFDML 模型的 ROC 为 0.82,PRC 为 0.78。

图6 基于卷积神经网络的功能性CG位置预测

总结‍‍‍‍

研究对 207 个棉花种质的 20 - DPA 纤维进行多组学分析,通过全基因组范围甲基化测序构建了 DNA 甲基化变异图谱,鉴定出大量SMPs,分析了遗传变异对甲基化的影响以及甲基化在基因表达调控中的作用,这是首次在作物基因组中进行单碱基水平的 EWAS 分析。通过 EWAS 和 GWAS 关联分析发现了与产量和纤维质量相关的位点,构建了多组学调控网络并验证了部分基因的功能。此外,开发了预测功能性 SMPs 的深度学习模型 DeepFDML。为理解棉花复杂性状的调控机制提供了新视角,证明 DNA 甲基化数据可用于育种,有助于推进棉花的育种工作,提高对作物表观遗传调控的认识。

参考文献:Population-wide DNA methylation polymorphisms at single-nucleotide resolution in 207 cotton accessions reveal epigenomic contributions to complex traits. Cell Research (2024) 0:1–14; https://doi.org/10.1038/s41422-024-01027-x


表观基因组对表型的影响说明了表型变异和表型可塑性之间的关系,独立于遗传因素,且DNA甲基化单倍型在特定染色体区域的复杂性远远超过单核苷酸多态性。艾斯基因作为国内最大的甲基化测序服务商,为助力群体水平DNA甲基化高水平研究,推出动植物群体甲基化测序优惠活动:

甲基化测序选择艾斯基因

🌟项目经验丰富

艾斯基因是国内最大的表观组甲基化服务商,每通量>10万例,已经成功完成对人临床样本,大小鼠,猪,牛,食蟹猴,南芥,大豆,水稻,桃,白菜等近百个物种的甲基化测序分析,每年服务100+海外和国内企业及200+高校和医院等客户。

🌟数据交付稳定

艾斯基因已实现甲基化全自动化测序,标准化流程、拥有低成本优势,项目30天极速交付

🌟高分文章支撑

团队专注表观多组学15年,拥有资深的表观研究经验,多篇CNS及子刊研究成果,助力客户在Nature Communications、Genome Biology、Cell Research等国际期刊上累计发表百余篇论文。

🌟专业的服务团队

艾斯基因有专业的技术与生信分析团队,项目配备一对一专项解答

🌟可选干冰邮寄或上门取样服务

在北京 、上海 、广州 、深圳均可上门取样。其余地区提供免费的干冰寄样服务。

相关技术详细介绍

1、WGBS:金牌产品|全基因组甲基化测序—表观机制研究神器
2、EM-seq :创新酶转化| 更高质量cfDNA甲基化测序助力液体活检临床应用
3、TBS:特色技术|靶向甲基化测序TBS Panel
4、935k甲基化芯片:技术升级|队列研究高性价比技术
6、新品上市 | 5hmC-seq:液体活检全基因组5hmC单碱基方案
7、oxBS-seq: 氧化-亚硫酸盐测序(oxidative bisulfite sequencing)——羟甲基化 5hmC 单碱基分辨率方案!
8、Seal-seq: 羟甲基化 5hmC 化学捕获测序(5hmC Seal-seq)—超高灵敏度羟甲基化测序方案!


本文来源于艾斯基因,版权归原作者所有,授权转载请联系原作者。文章只为学术新闻信息的传播,不代表本公众号观点。如有侵权请联系删除。

艾斯基因
艾斯基因是国内最大的表观组甲基化服务商,专注表观创新多组学,提供表观全景解决方案:DNA甲基化/羟甲基化、DNA染色质互作、RNA甲基化等技术服务,年为 100+海外和国内企业客户、200+ 高校和医院等客户提供10万+ 例样本的技术服务。
 最新文章