NC:全面映射和建模水稻调控组的景观揭示了复杂性状背后的调控结构

2025-01-04 18:04   湖北  

该文献探讨了水稻中染色质可及性及其对组织特异性基因调控的重要性。作者采用深度学习模型,准确预测了不同组织间的染色质可及性差异,并揭示了水稻品种MH63和ZS97之间的共同调控语法。

研究结果表明,上游调控区(如1-3kb及<1kb)对基因表达有显著影响。这些数据帮助识别与全基因组关联研究(GWAS)相关的变异,并为理解复杂性状的遗传背景提供了新视角。分析中共涉及2675个样本,这些分析为后续的遗传研究提供了可靠的数据基础。

文献提到,研究团队进行了250次实验验证,显示深度学习模型在捕捉组织特异性调控中的高准确性。总的来说,研究为理解水稻的遗传调控网络以及复杂性状的调控架构提供了宝贵的数据和见解,为水稻的改良与育种提供了重要依据。

此外,研究突出了遗传变异如何影响基因的调控机制,从而影响水稻的生长和产量,为未来的育种策略奠定了基础。这项研究不但对基础科学研究有重要意义,也对水稻的实际应用和改良战略提供了指导。

主要结果

绘制水稻染色质可及性参考图谱

在研究水稻(Oryza sativa)的染色质可及性(chromatin accessibility)时,作者构建了一个全面的参考图谱。研究借助改进的ATAC-seq技术(UMI-ATAC-seq)对23种不同组织的染色质可及性进行了系统的分析,涵盖了水稻的整个生命周期。通过145个ATAC-seq数据集,研究团队识别出了117,176个独特的开放染色质区域(open chromatin regions, OCRs),这占到了水稻基因组的约15%,相较于之前的研究显示出更高的比例。这项研究通过与RNA-seq数据的结合,预测了59,075个OCR与目标基因之间的关联,其中69.54%的关联为增强子(enhancer)到基因的连接。

研究进一步揭示了每种组织和不同生长阶段之间的调控网络,推断出特定的组织或阶段特异性调控机制。同时,对比较不同水稻品种(如 japonica 和 indica)间的染色质可及性,发现与全基因组关联研究(GWAS)相关的变异通常出现在这些特定的OCRs中,推动了对209个复杂农艺性状与非编码调控变异之间因果关联的识别。

综合而言,这一开放染色质图谱不仅为水稻功能基因组学研究提供了基础资源,也为精准分子育种提供了重要的调控变体,从而加深了对复杂性状遗传机制的理解。

开放染色质区域与目标基因之间的关联

为了揭示这些开放染色质区域(OCRs)可能调控的基因,本文为每个水稻品种的相关组织生成了匹配的 RNA-seq 数据集(补充图 3c 和补充数据 4)。本文采用了一种基于相关性分析的策略(参考文献 23),预测 OCR 与基因表达之间的链接(图 2a;详见方法)。基因可以通过染色质相互作用被多个 OCR(包括启动子和增强子)调控,这些相互作用通常发生在拓扑相关域(TADs)内。根据 Hi-C 数据,水稻基因组中 TAD 的大小估计在 35 kb 到 45 kb 之间(参考文献 24, 25),因此本文将分析限制在 40 kb(即从转录起始位点(TSS)上游 20 kb 到下游 20 kb)内,以预测 OCR 的目标基因。使用绝对皮尔逊相关系数 |R| >= 0.4 和 P < 0.05 的阈值,本文获得了 59,075 个独特的 OCR-基因链接,这些链接与水稻中已发布的表达数量性状基因组位点(eQTL)数据存在显著重叠(卡方检验,P < 1.55e−06)(补充图 4g)。

如预期,具有共定位的 OCR-基因链接的相关系数显著高于没有共定位的链接(Wilcoxon 检验,P = 4.11e−38;补充图 4h)。本文识别了许多已知的调控变异,这些变异影响与农艺性状相关的基因表达。例如,qSH1 的一个远端调控区域(约 12 kb 上游)变异调节其表达动态,导致水稻的种子脱落变化。该增强子的可及性与 qSH1 在不同组织中的表达呈正相关(R = 0.47, P < 0.013)(补充图 4i, l)。同样,OsLG1 与上游调控区域紧密相关,这些区域与一个强 QTL 相关联,影响穗形性状(补充图 4j, l)。IPA1 的增强子活性与基因表达之间存在显著正相关(R = 0.84, P < 2.95e−8),在与产量相关的组织中表达增加(补充图 4k, l),确认了 IPA1 在塑造水稻理想植物架构(IPA)和提高粮食产量中的重要作用(参考文献 28)。综上所述,预测的 OCR-基因链接为水稻农艺性状的发展提供了调控见解,并突出了重要基因的可靶向 OCR,以便进行基因组编辑。

剖析组织特异性和阶段特异性调控语法

通过对代表性组织的全面染色质可及性景观分析,本文揭示了组织特异性的调控语法。本文利用 JSD 分数量化了 OCRs 的组织特异性,区分了管家基因(如 GAPDH(参考文献 29)和 OsGOGAT1(参考文献 30))与组织特异性基因(如 OsYABBY5(参考文献 31)和 OsWRKY47(参考文献 32))。本文重点分析了 6686 个高组织特异性 OCRs(JSD > 0.08,约占所有 OCRs 的 7%),这些 OCRs 被进一步注释为启动子(n = 2322)或增强子(n = 4364)。通过对染色质可及性和目标基因表达的联合聚类分析,本文识别了 20 个不同的 OCR 聚类(图 2b 和补充数据 7),每个聚类包含 200~500 个在特定组织中高度激活的 OCR-基因链接,且与相应组织的已知生物特性高度一致(图 2b–d)。
例如,第 5 聚类(C5)中的 palea 和 lemma 特异性链接包含 GW8 基因的启动子-增强子相互作用,该基因控制水稻的粒重(参考文献 33),并在雌蕊、外稃和内稃中高度表达。基因本体(GO)富集分析显示,C5 中的基因与“花粉-雌蕊相互作用”和“授粉”等生物过程显著富集(图 2d)。类似地,第 19 聚类(C19)中的多个 OCRs 在芽体样组织(如幼穗和顶端分生组织)中特异性可及,相关目标基因在“生殖系统发育”、“花发育”和“茎系统发育”等功能上显著富集(图 2b, d)。值得注意的是,RFL 是植物架构和开花时间的重要调控因子(参考文献 34, 35),也在这些目标基因中(图 2c)。本文观察到,组织特异性 OCRs 中有更高比例(28.9%)来自远端基因间区,而构成性 OCRs 中这一比例为 12.3%;约 85% 的构成性 OCRs 来源于近端启动子区域(图 2e)。
为了识别可能结合这些组织特异性 OCRs 的转录因子(TFs),本文使用 GimmeMotifs(参考文献 36)工具,分析了每个组织中前 2500 个 OCRs 的特异性测量(SPM)分数(参考文献 37)。预测的调控基序在匹配的组织类型中显示出显著的组织特异性富集(补充图 6 和补充数据 8)。本文关注每种组织类型中富集的主要调控因子,发现许多推测的链接与已知的调控关系相符(图 3a)。例如,OsIDS1 在穗中的活性较高,参与花序结构的形成和花分生组织的建立(参考文献 38, 39)。OsbZIP72 在胚芽组织中富集,调节胚芽长度并促进种子萌发(参考文献 40, 41)。种子和雌蕊组织中显示出花和种子发育相关的关键调控因子(如 MFO1 和 MADS6(参考文献 42–44))的共同富集模式(图 3a)。
本文对每种组织类型进行了系统分析,以计算转录因子家族中调控因子的相对偏好,结果显示出明显的组织特异性 TF 结合模式(图 3b)。例如,TCP 转录因子家族在茎、雄蕊和穗颈节点(PNN)组织中表现出偏好,这与 TCP 基因在发育组织中调节细胞增殖的已知生物功能一致(参考文献 45)。通过分析时间序列 ATAC-seq 数据,本文生成了来自幼穗的开放染色质数据,涵盖四个连续发育阶段(<1 mm, 1–2 mm, 3–5 mm, 和 5–10 mm;图 1a)。本文旨在识别在幼穗发育阶段中表现出正或负相关的调控基序,使用动态变化的 OCRs(n = 9244;图 3c,补充图 7a 和补充数据 9)。最富集的调控因子主要表现出正相关,表明其作为转录激活因子的功能;而一部分因子则表现出负相关,暗示其抑制作用。在这方面,DL(编码 OsYABBY(参考文献 49))、OsSPL9(参考文献 50)和 OsSPL14(参考文献 51)被识别为水稻幼穗发育的代表性正调控因子(图 3d 和补充图 7b)。然而,进一步的实验数据仍需验证这些转录因子在幼穗发育中的潜在作用。总体而言,以上结果为指导组织特异性基因调控的关键调控因子的研究提供了宝贵资源。

全基因组关联研究变异在组织特异性调控DNA中的系统性定位

全基因组关联研究(GWAS)已识别出与水稻多种农艺性状相关的自然变异(参考文献 3)。为了系统性地将 GWAS 相关变异与上述注释的调控元件(特别是非编码调控区域)共定位,本文汇编了来自近期全基因组关联元分析研究(参考文献 2, 52–54)和 NGDC GWAS Atlas 数据库(参考文献 55)的综合水稻 GWAS 目录。总共收集了 4831 个显著(P < 1e−5)且具有代表性的(仅考虑主 SNP)关联,涉及 209 种不同的数量性状,这些性状可分为七大类(图 4a 和补充数据 10):形态特征、生理特征、产量成分、谷物质量、抗性、着色和其他(图 4a)。
这些 GWAS SNPs 主要位于基因间非编码区域(图 4b 和补充图 8a),其中 24.5% 位于非编码开放染色质区域(OCR)内(21.1%)或与邻近 OCR 中的 SNPs 处于连锁不平衡(LD)(3.4%)(图 4c)。此外,OCRs 中的 GWAS SNPs 显示出显著高于蛋白编码序列的富集(图 4d),强调了调控变异在表型特征决定中的重要作用。本文的研究还表明,包含 GWAS SNPs 的 OCRs 具有更高的组织特异性(图 4e, f 和补充图 8b-d)。例如,包含 GWAS 主变异 vg072467105553(C/T,GWAS P < 9.27e−8)的 OCR 与穗数显著相关,该 OCR 在幼穗组织中特异性高度可及,并与 GW7 的表达呈正相关(R = 0.59, P < 9.14e−5;图 4g)。另一个例子是 GWAS 主变异 vg0431427332,与叶片宽度显著相关(P < 1.58e−8),位于 SAM/穗特异性 OCR 中,正向调节 NAL1 的表达(R = 0.72, P < 1.16e−6)(图 4h)。先前的研究表明,NAL1 不仅与叶宽相关,还与产量相关(参考文献 52),并且在表达水平上存在自然变异(参考文献 26)。更多验证的 OCR 相关关联示例见补充图 8e。

组织特异性调控变异解释农艺性状关联

开放染色质区域(OCRs)内的 DNA 序列变异在通过改变染色质状态和基因表达模式推动表型创新方面发挥了重要作用,通常表现为组织特异性。为了研究与农艺性状相关的遗传变异与组织特异性 OCRs 之间的关系,本文计算了遗传变异在 OCRs 中的组织特异性富集。结果显示,显著的 GWAS SNPs 在与性状相关的组织的 OCRs 中频繁富集(图 4f 和补充图 8d)。例如,与穗性状相关的 GWAS 变异在 SAM1、雌蕊和穗的特异性 OCRs 中高度富集。本文使用 CHEERS 方法对 GWAS 识别的 SNPs 在不同组织的 OCRs 中进行了富集分析(补充图 9)。在 209 个整理的 GWAS 相关性状中,约 78%(163 个)在至少一种组织中显示出 GWAS SNP 富集(补充图 10 和补充数据 11)。这种与农艺性状相关的变异在调控元件中的富集高度特异于组织类型,且与当前对组织功能的理解基本一致(图 5a)。
例如,与植物高度相关的调控变异在茎相关组织中富集,而与谷物相关性状(如谷物厚度、宽度、长度等)的遗传关联则在种子、外稃、雌蕊和雄蕊的特异性 OCRs 中高度富集(图 5a)。根长相关的变异主要富集在根组织中,特别是一个显著 SNP(vg080620195758,P < 3.98e-8)位于 OsHAK12 的根特异性增强子中,该基因与根部 K+ 吸收相关(补充图 11a)。在种子萌发率方面,GWAS SNPs 在胚芽特异性 OCRs 中显著富集(图 5a)。本文注意到一个主 SNP(vg013172902860,A/G,P < 8.4e−8)位于 OsbZIP06 的内含子 OCR 中,该内含子 OCR 与 OsbZIP06 在胚芽和根部形成了正向 OCR-基因链接(R = 0.82, P < 2.55e-7)(图 5b)。vg0131729028 的次要等位基因(G)在 XI 群体中仅占 0.3%,而在 Aus 群体中占 65.80%(图 5c)。本文使用 CRISPR/Cas9 突变了 OsbZIP06 的编码区(主要是第一个外显子),发现两个框移突变(osbzip06-1 和 osbzip06-2)的萌发率高于野生型(图 5d-f 和补充数据 12)。相反,OsbZIP06 的过表达导致萌发率降低(图 5e, f)。因此,整合已发布的 GWAS 数据和本文的染色质景观可以大大促进候选基因的识别和非编码变异的功能注释。
此外,当本文将 OCRs 分为近端(<3 kb 距 TSS,60,006 个 OCRs)和远端 OCRs(>3 kb 距 TSS,35,691 个 OCRs)后进行 CHEERS 富集分析时,观察到近端 OCRs 中 GWAS SNPs 的富集更为显著(图 5g–i 和补充图 11b)。这表明上述富集主要由靠近 TSS 的 OCR 驱动,这一结果与先前的研究一致(参考文献 57, 61)。

深度学习模型准确预测组织间染色质可及性的差异,并揭示品种间的共同调控语法

本文进一步研究了组织和阶段特异性调控语法是否可以建模。深度学习已成功用于识别基因组序列中的关键特征,如顺式元件(cis-elements)(参考文献 62, 63)。本文之前的研究表明,Basenji 深度学习框架(参考文献 64)在水稻表观基因组数据建模方面表现出色,能够准确预测染色质可及性并评估变异的影响。因此,本文优化了 Basenji 框架,以有效建模来自多个组织的 ATAC-seq 数据集(补充图 12a,b)。针对 NIP、MH63 和 ZS97 三个品种训练了三个独立模型,平均 AUROC 值分别为 0.931、0.921 和 0.928,显示出高准确性(图 6a 和补充图 12c)。本文观察到不同基因组位置的染色质可及性预测值与实际值之间的 Pearson 相关系数约为 0.81,最佳预测位于 TSS 上游 <1 kb 区域(图 6b 和补充图 12d),这表明启动子区域内的调控语法模式可能携带更显著的信息。
此外,预测信号能够区分不同组织,并与实际值的聚类结果高度一致(图 6c)。例如,根特异性表达基因 RCc3 在根部表现出独特的染色质可及性模式(图 6d 和补充图 13)。本文使用剩余两个品种的测试集评估每个品种特定模型的预测能力,发现预测信号与实际信号之间的 Pearson 相关系数约为 0.8(图 6e)。在 GSE9 启动子区域,MH63 与 NIP 和 ZS97 的序列存在差异,表现为 9 bp 的缺失和多个 SNP。ZS97 模型对 MH63 的该区域染色质可及性预测信号较弱,而对 NIP 和 ZS97 的预测信号较强(图 6f 和补充图 14)。这些结果表明,深度学习模型能够有效地在不同品种间进行准确预测,暗示水稻品种间存在共享的调控语法。
接下来,本文对 japonica 水稻(NIP)和 indica 水稻(MH63 和 ZS97)中 22 个匹配组织/器官的 ATAC-seq 数据进行了比较分析,发现约 60%(60,764/95,697)的 OCRs 在三个品种间共享(图 6g 和补充数据 13)。与 NIP 相比,indica 品种 MH63 和 ZS97 共享的 OCRs 比例更高(图 6g)。本文比较了三种品种间 1:1:1 的同源 OCRs 的染色质可及性动态(称为三元组),并将同源 OCRs 根据相对可及性分为七类(补充图 15)。不同组织中分配到不平衡类别的 OCR 三元组比例各异,从胚芽的 3.2% 到 AM1 的 24.8%(图 6h 和补充图 16a)。虽然启动子通常显示出平衡的 OCRs,但增强子则常常表现出不平衡的 OCRs,反映出品种特异性调控(补充图 16b)。有趣的是,不平衡的 OCRs 中 SNP 的基因型变异更多(图 6i),这提示本文不同品种间的序列变异可能导致这些同源 OCRs 的染色质可及性差异。
因此,本文使用基于 NIP 的深度学习模型预测 NIP、MH63 和 ZS97 中同源 OCRs 的染色质可及性信号,并比较这些预测。结果显示,约 50% 的同源 OCRs 差异可以通过序列变异成功解释(图 6j 和补充图 17)。总之,以上结果表明深度学习模型能够准确预测不同组织和品种间的染色质可及性,模型的高准确性也表明本文数据的高质量。

通过深度学习模型阐明顺式调控分化的关键遗传变化

遗传变异和新生突变在调控区域可能导致顺式调控差异,从而改变基因表达和生物表型(参考文献 67)。本文系统性地分析了由于基因组序列变化(如 SNPs)引起的顺式调控差异,这些变化可以通过 ATAC-seq 数据推断。本文提取了三种品种中不同的变异,并使用深度学习模型评估这些变异对染色质可及性的影响。结果显示,不平衡的开放染色质区域(OCRs)具有比平衡 OCRs 更高的绝对效应分数(补充图 18a),且这些大效应位点显著富集于表达数量性状基因组位点(eQTLs)(补充图 18b),表明这些变异与染色质可及性和基因表达的变化相关。
本文对三种品种分别进行了 OCR-基因相关性分析,识别出保守的 OCR-基因链接,并比较了它们之间的相关系数(图 7a)。显著差异的相关系数的 OCRs 显示出更高的 SNP 密度(图 7b),而 MH63 和 ZS97 之间相关系数差异较大的 OCR-基因链接显著富集于差异 cis-eQTL(Fisher 精确检验,优势比 = 1.81,P < 1.83e−28)69。这表明不同品种间的调控序列变异可能影响基因表达。例如,本文观察到一个 SNP(vg0336150781,G/A)位于 GNP1 启动子区域,控制谷物数量和植物高度(参考文献 70)。在推断的 OCR-基因链接中,NIP 中的等位基因(该 SNP 的 “G”)与 GNP1 相关(R = 0.59,P < 6.48e−04),而 MH63 和 ZS97 中的等位基因(“A”)未显示相关性(MH63: R = 0.01, P = 0.99;ZS97: R = 0.17, P = 0.34)(图 7c)。此外,eGWAS 也表明该 SNP 影响 GNP1 表达(图 7d)。使用深度学习模型评估该 SNP 的效应时,本文发现将该 SNP 从 “G” 突变为 “A” 显著降低了染色质可及性(图 7e)。该变异还与在 Panicle2 中识别的 OsSPL10 的结合位点重叠,显示出 SBP 转录因子家族的典型 “GTAC” 模体。
除了点突变,小的基因组改变(包括短插入/缺失、倒位和重复)可能会消除 OCRs,从而导致重要的调控差异。本文基于 NIP 参考基因组量化了所有 OCRs,并调查其调控活性动态是否与短基因组改变相关。结果显示,近三分之一(26.6%)的 OCRs 存在小的改变(图 7f)。这些与突变相关的 OCRs 的调控活性与其周围基因表达模式呈正相关,且表现出品种特异性(图 7g, h),例如在 Oshsp18.0-CII 和 MAG2 的位点(图 7i, j 和补充图 19a)。GO 分析显示,这些基因在多种“响应”相关功能中高度富集(补充图 19b 和补充数据 14)。进一步研究发现,识别出的嵌入突变的 OCRs 与转座元件(TEs)显著重叠(补充图 19c)。以上结果表明,TEs 可能有助于调控序列的修饰,微调基因表达网络并驱动新功能(参考文献 71)。
总结与讨论
尽管取得了显著进展,水稻基因组内调控序列的完整目录仍然缺失,限制了对组织特异性调控动态和基因调控网络(GRNs)的理解。本文的研究利用 UMI-ATAC-seq 技术(参考文献 12)全面探索了水稻基因组的调控,揭示了组织特异性调控元件及其对复杂农艺性状的影响。研究发现,水稻中的开放染色质区域(OCRs)约占基因组的 15%,显著高于拟南芥(约 4%)(参考文献 72)和玉米(约 4%)(参考文献 73),这强调了采样深度在表征植物调控复杂性中的重要性。
通过整合匹配组织的 RNA-seq 数据,本文预测了 59,075 个 OCR-基因链接,包括许多已报道的增强子-基因链接。这一分析提供了染色质可及性变化如何直接影响基因表达模式的整体视角,强调了调控元件在塑造水稻转录组中的重要性。尽管本文预测了 OCR-基因链接,但不到一半的蛋白编码基因与 OCRs 之间表现出较强的相关性(Pearson 相关系数 |R|≥ 0.4,P < 0.05),这可能是由于动态和上下文依赖的调控复杂性以及长距离和间接调控机制的影响。
深度学习已成为解释基因组和表观基因组数据的强大工具(参考文献 62, 63),但在水稻中的应用受到高质量表观基因组数据稀缺的限制。本文研究成功建模了三种水稻品种的染色质可及性,提供了基于序列预测不同品种间染色质可及性变化的参考。通过整合全基因组关联研究(GWAS)数据,本文定位了非编码调控区域内的重要变异,表明这些变异优先位于组织特异性 OCRs 中,从而提供了调控变异对表型结果影响的见解。
本文的研究还确认了 OsbZIP06 在种子萌发中的作用,展示了将 GWAS 数据与染色质可及性结合以揭示复杂性状遗传基础的潜力。尽管如此,研究存在一些局限性:首先,数据仅涵盖正常条件,缺乏对生物或非生物胁迫、突变体和不同环境条件的响应的见解;其次,OCRs 与基因之间的推断关联需要实验验证;第三,研究主要使用 NIP 参考基因组,排除了 NIP 基因组中不可用的序列。
此外,单细胞技术的出现为以单细胞分辨率研究顺式元件开辟了新途径(参考文献 73, 74)。未来,结合单细胞数据将对进一步表征不同细胞类型的异质性至关重要。这些进展将共同促进对水稻及其他植物调控景观的更全面理解。
文献来源:

Tao Zhu, Chunjiao Xia, Ranran Yu, Xinkai Zhou, Xingbing Xu, Lin Wang, et al. Comprehensive mapping and modelling of the rice regulome landscape unveils the regulatory architecture underlying complex traits. Nat Commun. 2024;15:6562.

名词解释:

  1. 染色质可及性是指染色质中DNA片段在细胞内的可接触性,这直接影响到基因的表达和调控。染色质的结构可以被视为一种“开”与“关”的状态,开放的染色质区域(Accessible Chromatin Regions, OCRs)更容易被转录因子和RNA聚合酶等蛋白质识别,从而促进基因的转录和表达。

  2. 开放染色质区域是指在染色质结构中,DNA与组蛋白的结合较为松散,易于转录因子和其他转录调控蛋白结合的区域。这些区域通常与基因的转录活性相关,是基因表达调控的重要位点。

AIBioPioneer
分享人工智能,生物信息与植物生理的点点滴滴
 最新文章