NSMB最新| 转录因子识别DNA二核苷酸的新机制:界面水合作用的关键调控

文摘   2025-01-07 08:35   江苏  

论文的研究目标和意义

这篇发表在Nature Structural & Molecular Biology上的文章,旨在研究转录因子(transcription factors, TFs)是如何特异性识别DNA上的二核苷酸(dinucleotide)序列的。虽然已知TFs能识别特定的单个碱基,且各碱基对总结合能的贡献大致独立,但某些二核苷酸对结合能的影响远超简单叠加的预期,说明TFs能直接识别二核苷酸。正如文章开头所说:

Transcription factors (TFs) recognize specific bases within their DNA-binding motifs, with each base contributing nearly independently to total binding energy. However, the energetic contributions of particular dinucleotides can deviate strongly from the additive approximation, indicating that some TFs can specifically recognize DNA dinucleotides.

研究TFs如何识别二核苷酸具有重要意义。作为基因表达调控的关键,理解TFs与DNA的特异性结合机制,有助于从分子水平阐释基因表达的动态调控过程,对合理设计基因治疗策略、开发基因编辑工具等都有重要启示。此外,二核苷酸识别的温度敏感性可能影响基因表达的热调节,在单细胞生物、植物和变温动物中尤为重要。但目前对TFs如何实现二核苷酸特异性识别的分子机制还知之甚少。因此,这项研究填补了这一认知空白,对基础研究和应用开发都具有重要价值。


论文提出的新思路和方法

为了研究TFs对二核苷酸的识别机制,作者选择了两个TFs, MYF5和BARHL2,它们在DNA结合过程中都表现出明显的二核苷酸偏好性。在之前的研究中,作者提出TFs与DNA的高亲和力结合可能来自于焓(enthalpy)和熵(entropy)两种不同的优化模式:

Previously, we have shown that binding of TFs to two distinct sequence optima can be caused by partial independence of the two contributions, ΔH and TΔS, to binding free energy, with different DNA sequences representing enthalpic and entropic optima for binding.

为了探究这两种模式在二核苷酸识别过程中的作用,作者利用X射线晶体学方法,解析了MYF5和BARHL2与多种最优和次优DNA序列复合物的高分辨率(<1Å)结构。其中BARHL2与DNA的一个复合物结构分辨率高达0.95Å,创下了TF-DNA复合物结构解析的最高分辨率记录。高分辨率结构揭示了水分子在蛋白-DNA界面的分布和动态变化细节。

作者进一步利用分子动力学模拟和基于Per|Mut算法的溶剂熵计算方法,定量分析了界面水的熵对结合自由能的贡献。相比简单依赖结构解析,计算方法能更全面地模拟动态过程,定量评估水分子网络的熵效应。

综上,作者创新性地将多种方法相结合,在原子分辨率水平上系统研究了二核苷酸识别的分子机制,并定量评估了结合过程中的焓熵效应,这在以往研究中较少涉及。高分辨率结构和计算模拟的巧妙结合,极大地拓展了对蛋白-DNA相互作用的认识。


MYF5通过调控界面水分子实现二核苷酸的特异性识别

MYF5是一种含螺旋-环-螺旋结构域的转录因子,能特异性识别含AA或GT二核苷酸的DNA序列。为揭示其识别机制,作者解析了MYF5与两种DNA的复合物结构。结果发现,MYF5通过精细调控界面水分子与DNA的相互作用,在两种序列上实现了高亲和力结合:

The AA flank in DNA AA is recognized by Arg91, which contacts the first A (A 5 ) through a water molecule (Fig. 1g and Extended Data Fig. 1c–e). However, in DNA GT , Arg91 does not interact with water but instead makes direct hydrogen bond contact with the G 5  (Fig. 1h).

如Figure 1所示,MYF5与AA序列的结合依赖于一个水分子介导的氢键网络(Fig. 1f),而与GT序列的结合则利用了精氨酸与鸟嘌呤碱基的直接氢键作用(Fig. 1g)。

图1

这一发现揭示了蛋白-DNA界面水分子网络在二核苷酸识别中的关键作用,拓展了经典的碱基-氨基酸相互作用模型。通过对比两种结合模式,作者提出了"焓-熵补偿"的新机制来解释序列特异性识别。这一发现对深入理解转录因子-DNA的特异性识别具有重要启示意义。

BARHL2利用水分子网络和疏水作用实现二核苷酸识别

为了进一步探究二核苷酸识别的分子机制,作者选择同源异形盒(homeodomain)转录因子BARHL2为研究对象,系统测定了其与8种含不同二核苷酸DNA的复合物结构,分辨率高达0.95Å。

To investigate TF binding to dinucleotides in more molecular detail, we performed an extensive structural analysis of DNA binding by the homeodomain TF BARHL2. BARHL2 can recognize a canonical homeobox-like sequence (TAATTG) but, unlike most other homeodomain proteins, can also bind with even higher affinity to TAAACG, which contains a different dinucleotide, AC.

这些高分辨率结构首次揭示了DNA骨架磷酸基团、糖和碱基的多重构象特征(Extended Data Fig. 3)。更重要的是,它们清晰地展示了蛋白-DNA界面水分子网络的精细结构(Fig. 3):

Analysis of the highest-affinity complex, BARHL2–DNA AC , revealed that the high-affinity binding of BARHL to DNA AC  is caused by a combination of indirect and direct recognition of DNA. Key amino acids involved in the recognition of the AC dinucleotide and its complementary bases are Asn282 and two threonines: Thr278 and Thr285. Thr278 is connected to DNA by two water chains (Fig. 3a).

对TAAAC序列的识别依赖于两个由10个水分子组成的水链,将蛋白和DNA连接起来(Fig. 3a)。而对TAATT序列的识别则主要利用疏水相互作用,二核苷酸上的甲基使界面水分子呈现更高的移动性(Fig. 3b)。

综合比较8种复合物结构,作者发现BARHL2利用两种截然不同但能量上等价的机制实现二核苷酸的特异性识别:一种依赖于形成精细的水分子网络,对应焓驱动的结合模式;另一种利用疏水作用增加水的移动性,对应熵驱动的结合模式(Fig. 3)。这两种模式在结合自由能上达到平衡,但对温度的敏感性不同。

图3

该研究建立了TF识别DNA二核苷酸的全新机制框架。系统的结构生物学研究支持了之前的"焓-熵补偿"理论模型,揭示了驱动特异性识别的普适物理化学机制。这一工作极大地拓展了经典蛋白-DNA相互作用模型,为从头设计高特异性DNA结合蛋白提供了新思路。

点突变和DNA修饰实验验证关键残基和疏水作用的重要性

为了从多角度验证结构研究的发现,作者开展了一系列生化实验。首先,通过定点突变实验,作者证实了两个关键的苏氨酸残基(T278和T285)在维系水分子网络中的重要作用(Fig. 4a)。

To determine the role of hydrophobic interactions and water-mediated bonds in BARHL2–DNA interactions, we mutated the two threonines (Thr278 and Thr285) that contribute to the hydrophobic interactions and water-chain organization to residues found in other homeodomain proteins (Extended Data Fig. 4). The protein–DNA affinities were measured using SELEX. As expected, binding of BARHL2 to the TAATT sequence, which is commonly recognized by homeodomains, was not abolished by most of the mutations (Fig. 4a). However, binding to the BARHL-family-specific TAAAC sequence was very sensitive to mutation.

其次,作者利用DNA碱基的甲基化修饰引入额外的疏水基团,揭示了疏水作用对结合强度的调节效应(Fig. 4b-d)。修饰碱基上引入的甲基不仅能提供疏水相互作用位点,还能破坏水分子网络,因而对结合强度有双重影响。

To further assess the role of hydrophobic contacts, we tested the effect of cytosine methylation. Introduction of a hydrophobic methyl group to the five position of C enables methyl-C to take part in similar hydrophobic interactions as a T. In addition, the methyl group destabilizes local water networks.

这些实验强有力地支持了结构研究的发现,证实了蛋白-DNA界面关键残基和疏水基团在调控结合模式和结合强度中的重要作用。通过定点突变这一经典方法,作者直接验证了结构研究提出的作用机制,建立了结构和功能之间的直接联系。而利用化学修饰调控蛋白-DNA相互作用,则为定向改造TF的DNA结合特性开辟了新的途径。

变温SELEX实验揭示二核苷酸识别的温度敏感性

为探究二核苷酸识别过程对温度的敏感性,作者开展了一系列不同温度下的SELEX富集实验。结果显示,BARHL2与TAAAC序列的结合强度随温度升高而显著下降,而与TAATT的结合则受温度影响较小(Fig. 4e)。

A comparison of the effect of temperature on the relative binding affinity of the different sequences revealed that the affinity to the enthalpic TAAAC sequence decreased when the temperature was increased; a similar but less dramatic trend was also observed for TAAGT. However, the sequence representing the entropic optima TAATT was less affected by temperature (Fig. 4e).

这一发现从动力学角度支持了焓驱动和熵驱动两种不同的结合模式。由于形成有序水分子网络在熵上是不利的,因此依赖水分子网络的结合方式对温度更为敏感。而熵驱动的疏水作用结合模式则对温度不那么敏感。

图4

这一实验创新性地将传统的SELEX方法与变温处理相结合,在活体外实验体系中模拟了不同温度下的TF-DNA结合过程。所得结果不仅验证了结构和理论研究的重要推测,更首次在动力学水平揭示了二核苷酸识别的物理化学机制。这为理解基因表达的温度调控机制提供了全新视角。

分子动力学模拟和熵计算定量分析水合作用的贡献

为定量评估水合作用对结合过程的焓熵贡献,作者开展了分子动力学模拟和熵计算研究(Fig. 5)。基于高分辨率结构,作者构建了MYF5和BARHL2与不同DNA的复合物体系,开展了总计数百纳秒的全原子模拟。

作者利用Per|Mut方法计算了蛋白-DNA界面水分子的平移和转动熵。如Figure 5所示,焓驱动结合模式的界面水分子呈现出更低的平均熵(Fig. 5a),分布在较低的熵区间(Fig. 5b);而在熵驱动结合模式中,界面水分子整体熵值更高,分布更均匀。定量计算表明,BARHL2-TAAAC结合过程的溶剂熵损失比BARHL2-TAATT大1500 J·mol-1·K-1。

此外,作者还评估了蛋白和DNA分子自身的构象熵对结合的影响(Fig. 5c,d)。尽管DNA的构象熵存在一定差异,但远小于溶剂熵的贡献(Fig. 5e)。综合比较发现,溶剂熵的差异是影响两种结合模式自由能的主要因素。

Based on these solvent entropy calculations, we estimated that the solvent entropy loss is considerably larger for BARHL2–DNA AC than for BARHL2–DNA TT . The difference is a significant contribution to the free-energy budget of the BARHL2 binding, and probably the main source of binding entropy difference observed in the ITC measurements.

这些计算和模拟工作定量揭示了蛋白-DNA界面水合作用对结合热力学的调控作用。通过系统的熵计算,作者厘清了不同结合模式中焓和熵的相对贡献,证实了之前的理论预测。模拟结果与结构、动力学实验相互印证,建立了二核苷酸识别过程中各种驱动力之间的定量关联。这为阐明蛋白-DNA识别的物理化学本质提供了重要数据支持,也为理性设计高特异性DNA结合蛋白奠定了理论基础。

图5

总结

综上所述,这项研究系统阐明了转录因子特异性识别DNA二核苷酸的分子机制和物理化学基础。通过高分辨率结构研究,作者发现转录因子利用两种不同但能量等价的机制实现二核苷酸识别:一种依赖于精细的界面水分子网络,对应焓驱动的结合模式;另一种利用疏水作用提高水的移动性,对应熵驱动的结合模式。生化实验进一步验证了关键残基和疏水基团在调控结合模式和强度中的作用。变温SELEX实验揭示了两种结合模式对温度的差异敏感性,支持了焓-熵补偿的作用机制。分子动力学模拟和熵计算定量分析了水合作用对结合自由能的贡献,厘清了不同驱动力的相对重要性。

该研究建立了转录因子识别DNA二核苷酸的全新机制框架,极大地拓展了经典蛋白-DNA相互作用理论。多学科方法的系统运用极大地加深了我们对生物大分子识别的物理化学机制的理解,为理性设计高特异性DNA结合蛋白提供了理论基础,也为阐明基因表达调控和温度适应性机制开辟了新的研究方向。


研究成果的影响和应用

该研究从原子分辨率水平阐明了TFs特异性识别DNA二核苷酸的分子机制,填补了这一领域的重要空白。研究表明,TFs能通过调控界面水分子网络或利用疏水作用,在焓优化和熵优化两种模式下实现二核苷酸的特异性识别和高亲和力结合。

这一发现对深入理解基因表达调控机制具有重要启示意义。一方面,二核苷酸识别为理解TFs的DNA结合特异性提供了新的视角,有助于更准确地预测基因组中的顺式调控元件。另一方面,结合过程对温度的差异敏感性,可能在细胞对环境温度响应的基因表达调节中发挥重要作用。此外,基于疏水修饰提高DNA结合强度的策略,也为人工调控TF-DNA相互作用提供了新的思路。

随着数据的积累,可以预见该研究奠定的理论框架将被拓展到更多的TFs中,从而极大地加深我们对基因表达调控的分子机制的理解。这些知识不仅有助于阐释许多生命过程的调控原理,也为合理设计用于基因治疗和基因编辑的分子工具提供了理论指导。

从商业角度看,对TF-DNA相互作用机制的深入理解,能指导开发高效、特异的基因治疗和基因编辑系统。通过精准调控靶向基因的表达,有望实现对肿瘤、遗传病等疾病的治疗。此外,深刻理解基因表达的温度调节机制,还为开发响应环境变化的动植物新品种提供了理论基础。这些都意味着巨大的市场应用前景。

作为研究人员,建议可以结合该研究,继续关注以下几个方面:

  1. 二核苷酸识别机制在不同TF家族中的普遍性及差异;
  2. 二核苷酸识别在基因组水平顺式调控元件识别中的贡献;
  3. 温度响应的基因表达调控机制的普遍性规律;
  4. 基于疏水修饰的蛋白-DNA相互作用调控策略的进一步优化与应用。


未来研究方向与挑战

尽管该研究取得了重要进展,但在二核苷酸识别领域仍有许多问题值得进一步探索:

  1. 研究更多的TF-DNA复合物结构,全面理解二核苷酸序列识别的一般性规律;
  2. 将计算模拟与实验方法相结合,定量评估界面水的熵效应对结合自由能的贡献,发展蛋白-DNA相互作用强度的预测方法;
  3. 系统研究二核苷酸序列识别的温度敏感性,阐明其在基因表达的动态热调节中的作用机制和生理意义;
  4. 探索基于氢键和疏水作用调控的蛋白-DNA界面设计新策略,为定制高特异性的DNA结合蛋白提供新思路。


Critical Thinking

  1. 文章只研究了两个特定的TFs,尚需在更多TF家族中验证所揭示的二核苷酸识别机制的普遍性。不同TF家族在二核苷酸识别模式上可能存在差异,需要更多的结构学和生化验证。
  2. 关于界面水的熵对结合自由能的贡献,文章主要依赖分子动力学模拟和计算分析,仍需要更多实验数据支持,如利用核磁共振、热力学测量等手段直接检测水分子的动力学性质和热力学参数。
  3. 虽然SELEX实验证实了二核苷酸序列识别存在温度敏感性,但这一现象在生理条件下对基因表达调控的贡献还有待更多定量研究。此外,不同物种、组织和细胞类型的差异也值得考察。
  4. 基于疏水修饰和水分子网络设计的两种界面调控策略的实际应用潜力如何,还需要在更多TF-DNA体系中加以验证。对于特定TF,如何设计最优的修饰策略,也需要大量的理论和实验探索。
  5. 将二核苷酸识别机制整合到基因组水平的顺式调控元件预测模型中,对提高预测准确性的贡献还需更多实证分析。整合基因组和转录组大数据,有望实现新的突破。



Biosyn导师:Jussi Taipale

https://www.bioc.cam.ac.uk/research/taipale

Jussi Taipale教授是该研究的通讯作者。他在分子生物学和系统生物学领域有着深厚的学术造诣和丰富的研究经验。

Taipale教授于1996年获得赫尔辛基大学的博士学位,之后在赫尔辛基大学和美国约翰霍普金斯大学从事博士后研究工作。自2003年起,他一直领导着一个独立的研究团队,专注于生长控制和癌症的系统生物学研究。

Taipale研究组在高通量筛选、计算和实验方法方面有着雄厚的实力,尤其擅长鉴定非编码DNA中的致病性调控突变,以及分析基因调控网络。此外,他们在基因功能和调控区域的小鼠模型研究方面也有广泛的专业知识。

该研究组分布在三个国家:英国的Wellcome Sanger研究所、瑞典的卡罗林斯卡研究所和芬兰的赫尔辛基大学。目前,团队由七名高级科学家、三名博士后研究员、三名研究生、三名实验室经理和一名私人助理组成。

Taipale教授领导的这个跨国研究团队,汇集了多学科领域的顶尖人才,代表了生命科学研究的最高水平。他们在分子生物学机制解析和疾病相关基因组学研究方面取得了一系列重要成果,极大地推动了相关领域的发展。



Biosyn世纪
施一公:“我相信,21世纪是生命科学的世纪,而华人生物学家将在其中发挥极为重要的作用。”
 最新文章