大豆(Glycine max)是最具经济重要性的豆科作物之一,为人类和牲畜提供重要的油脂和蛋白质来源。转录因子(TF)在作物复杂农艺性状调控中的关键作用,特别是在大豆中。TF通过结合调控基因组区域来协调目标基因的时空表达。全基因组范围内对大豆TFBS的解析对于阐明调控复杂农艺性状的转录网络至关重要。
近日,南京农业大学宋庆鑫团队与中国农业科学院油料作物研究所曹东团队合作在Genome Biology杂志发表了题为Transcriptional regulatory network reveals key transcription factors for regulating agronomic traits in soybean的研究论文,该研究结合DAP-seq数据与已发表的大豆其他多组学数据构建了大豆转录因子的全基因组结合位点图谱和转录因子-靶基因调控网络,并基于该网络发掘出调控大豆籽粒含油量的关键转录因子。1. 转录因子结合位点数据(DAP-seq):首先,克隆了230个潜在重要的转录因子,并通过DAP-seq分析其结合模式。经过质量控制后,保留了148个转录因子的数据。
2. 已发表的组蛋白修饰ChIP-seq数据和染色质可及性ATAC-seq数据:大豆品种Williams 82的叶子中得出的已发表的ChIP-seq和ATAC-seq数据从NCBI下载,登录号PRJNA395102为bZIP67,PRJNA395064为ABI3-1,PRJNA657728为H3K27ac、H3K4me3和H3K27me3。
3. 基因表达数据(RNA-seq):从大豆品种Williams 82的28个不同组织和发育阶段生成的RNA-seq数据,NCBI登录号为PRJNA238493,样品取自不同发育阶段的根、芽、叶、花和种子。
4. 表观遗传修饰数据(MethylC-seq):大豆品种Williams 82叶片的已发表 MethylC-seq数据从NCBI下载,登录号(PRJNA657728)。MethylC-seq数据用于分析DNA甲基化水平。
5. 遗传变异数据:302种大豆的重测序数据,NCBI登录号为SRP045129 ,包括62种野生大豆(G. soja)、130种地方品种和110种改良品种。首先,研究者克隆了230个潜在重要的转录因子,并使用DAP-seq技术进行全基因组结合谱分析。去除了低置信度的转录因子后,保留了148个转录因子进行分析(Fig.1a,b)。进一步为随机选取的11个来自不同家族的转录因子生成了生物学重复数据,验证DAP-seq数据集是具有高度的可重复性。为了评估DAP-seq的可靠性,研究者将DAP-seq与已发表的GmbZIP67的ChIP-seq数据进行了比较。ChIP-seq和DAP-seq的peak之间有显著的重叠(Fig.1c),并且也检测到相似的结合motif(Fig.1d),这表明本研究中DAP-seq在转录因子结合位点(TFBS)识别方面具有高可靠性。通过DAP-seq识别了148个转录因子的3,041,762个peak,平均每个转录因子约有5737个peak(Fig.1e)。与相邻序列相比,转录因子结合位点(TFBS)显示出较低的甲基化水平(Fig.1f)和较高的染色质可及性(Fig.1g),这表明表观遗传标记可能在调节转录因子结合中起作用,而转录因子的结合也可能影响这些表观遗传标记。Fig.1 通过DAP-seq全局识别TFBSs
研究者将148个转录因子的结合位点合并到2-kb窗口中,PCA分析捕捉到了全局的转录因子结合模式,其中第一主成分(PC1)解释了18.3%的变异性,与给定基因组区域结合的转录因子数量强烈相关(Fig.1a)。通过PCA分析,识别了823个高转录因子热点区域(TF HOT区域),这些区域与开放染色质区域(OCRs)高度重叠(Fig.1b),并且富含双价组蛋白标记(H3K4me3和H3K27me3)(Fig.2c)。转录因子(TF)在基因启动子上的结合在调节其表达中起着关键作用。分析发现,大多数基因(44.2%)被1到5个TF结合,而只有1.1%的基因被超过20个TF结合(Fig.2d)。同一家族的TF倾向于结合相同的基因。TF结合位点在转录起始位点(TSS)周围的密度更高,而在转录终止位点(TTS)周围几乎没有富集,表明TF结合位点在基因及其邻近区域的分布不均(Fig.2e)。与人类研究一致,TF结合位点丰富的区域与管家基因相关,且TF结合数量越多,基因表达水平越高(Fig.2f),组织特异性越低(Fig.2g)。不同数量的TF结合的基因在不同的生物过程中富集。此外,根据已发表的重测序数据,TF结合位点(TFBS)在大豆群体中具有高度多态性(Fig.2h),并且比周围序列含有更多罕见的SNP(Fig.2i)。Fig.2 大豆基因组中TFBS全基因组图谱
3. 转录因子的差异结合导致全基因组复制(WGD)旁系同源基因的表达偏差
大豆是一种已知的古多倍体,经历了至少两轮全基因组复制(WGD)及随后的二倍体化,导致近75%的基因存在多个拷贝。研究者对大豆基因组中这些重复基因块的转录因子结合情况进行了分析,将它们分为保留率不同的两个块:block1(较高保留率)和 block2(较低保留率)。研究发现,这两个块在转录因子的结合数量以及DNA甲基化、染色质可及性和组蛋白修饰(H3K4me3、H3K27ac和H3K27me3)水平上没有显著差异(Fig.3a,b,c),表明在大豆的两个WGD块中,转录因子的结合模式是相似的。研究者在大豆基因组中发现了16,634个WGD旁系同源基因,发现这些旁系同源基因的启动子结合的转录因子存在显著差异,大多数(89.6%)旁系同源基因具有不到50%的共同启动子结合TF(Fig.3d)。此外,WGD旁系同源基因的TF结合差异与其表达差异呈正相关(Fig.3e)。99.3%的未被TFs结合的基因拷贝中可以找到相应的基序,而其中65.6%的基因拷贝在它们的启动子中共享完全相同的基序序列,这一比例显著高于随机基因对(Fig.3f)。即使旁系同源基因间共享相同的基序序列,它们的甲基化水平也存在差异,这可能影响TF的结合(Fig.3g)。这些结果表明DNA甲基化在调节WGD旁系同源基因的表达中起着重要作用。Fig.3 大豆WGD块和基因对中TF结合的特征
4. 基于大豆多组学数据的基因调控网络(GRN)构建
研究者通过整合DAP-seq数据和其他类型数据集(包括基因共表达网络、基于DNA结合的启动子互作网络和染色质可及性互作网络)(Fig.4a),构建了一个包含3188 个 TF和51,665个靶基因之间的共244万次互作的大豆转录因子调控网络(SoyGRN),覆盖了91.0%的PlantTFDB中鉴定的大豆TF。SoyGRN展现了不同TF家族间靶基因数量的显著差异(Fig.4b),并通过了GmMYB14过表达和ABI3-1 ChIP-seq数据的验证,显示了高准确性(Fig.4c,d,)。此外,SoyGRN被划分为9个功能模块,每个模块的基因富集于特定的生物过程,如模块 M4 中的基因在蛋白质代谢过程中富集,而模块 M7 中的基因参与光合作用(Fig.4f,g)。Fig.4 基于多组学数据构建大豆GRN
研究者利用SoyGRN发现79个转录因子可能调控大豆种皮颜色,它们与类黄酮和花青素生物合成途径中的基因显著相关。其中,32%属于MYB家族,包括已知调控类黄酮生物合成的GmMYB100(Fig.5a)。特别地,bHLH家族的Glyma.10G026000(GmTT8b)调控花青素合成关键基因,其过表达株系种子显示强烈色素沉着,证实了其在种皮颜色调控中的功能(Fig.5b,c)。GmTT8b及其靶基因在种子中表达优先(Fig.5d),根据已发表的ATAC-seq数据集,与其他组织相比,这些基因的近端区域在种子中显示出更高的染色质可及性(Fig.5e)。Fig.5 鉴定调控种皮颜色的转录因子
研究者收集了723个涉及油脂积累的基因,通过与SoyGRN中油脂相关基因的相互作用预测了279个可能调控种子油含量的转录因子(TF)。使用不同发育阶段种子的RNA-seq数据,发现这些候选转录因子在种子不同发育阶段的表达模式存在差异,暗示它们在不同发育阶段发挥作用(Fig.6a)。通过对31个转录因子的突变体分析,发现其中45.2%的转录因子破坏后会导致种子油含量下降。在预测调节种子油含量的TF中,MYB、bHLH、ERF、SBP、MIKC_MADS和NAC家系是排名前六的TF家族(Fig.6b)。特别地,研究还发现SBP(SBP-box)家族转录因子在调控种子油含量中可能发挥重要作用,其中GmSPL9b和GmSPL9c被预测控制油合成,且它们的突变体表现出种子油含量显著下降(Fig.6c,d,e)。此外,通过CRISPR/Cas9技术生成的Glyma.01G075800和Glyma.11G163828基因的敲除突变体也显示出种子油含量的显著降低(Fig.6f)。这些发现不仅揭示了SBP转录因子在调控种子油含量中的重要作用,也展示了利用SoyGRN预测功能转录因子对农艺性状的可靠性。Fig.6 鉴定调控种子油含量的转录因子
7. SoyGRN有助于精确识别农艺性状数量性状位点(QTLs)中的因果转录因子
连锁不平衡严重阻碍了在QTL区间内探索候选基因的工作。利用TF-靶基因的相互作用信息,基因调控网络(GRN)有助于优先考虑与复杂性状相关的QTL中的候选基因。对于特定性状的QTL中的每个TF,研究者汇总了其与QTL其余部分的靶基因的总相互作用得分,并与1000个随机TF进行比较(Fig.7a)。总相互作用得分高于前5%随机TF的TF被视为QTL中潜在的候选性状相关TF。以抗旱性指数相关的QTLs为例,SoyGRN通过分析GmMYB306(Glyma.17G099800)与其在QTLs中靶基因的相互作用,将其作为与抗旱性相关的高置信度候选基因(Fig.7b)。GO分析显示GmMYB306的靶基因显著富集于“对非生物刺激的响应”过程,包括与干旱胁迫相关的基因,如GmRVE8a、GmLCLa2和GmLCLb1(Fig.7c,d)。与这些结果一致,过表达MYB94(GmMYB306的拟南芥同源基因)被证明可以增强耐旱性,同时促进表皮蜡质积累并减轻叶片表皮蒸腾。该方法也被应用于其他性状的QTLs,识别了许多调控相应性状的TF作为候选基因。为了促进本研究中基因调控网络的利用,研究者开发了一个交互式网络平台SoyTFBase(www.soytfbase.cn),供大豆研究社区探索TF-基因关系并剖析与农艺性状相关的功能TF(Fig.7e)。用户可以在SoyTFBase中搜索特定TF的靶基因,或搜索调控特定基因的TF(Fig.7f),并使用“比较”工具发现不同基因的共同TF调控因子,或不同TF的共同靶基因(Fig.7g)。Fig.7 基于SoyGRN在QTLs内识别候选TF
该研究通过DAP-seq和多重数据集集成的方法,构建了大豆的基因调控网络(SoyGRN),揭示了调控农艺性状的关键转录因子。SoyGRN提供了一个宝贵的资源,有助于解析大豆中复杂的转录调控机制,加速大豆育种进程。如有相关技术需求,欢迎联系我们(DAP-seq、ChIP-seq、ATAC-seq、WGBS、WGR等)。祝大家科研顺利,发文就发CNS~项目咨询