在浩瀚的基因组中,顺式调控元件(cis-regulatory elements,CREs)犹如藏在暗处的星辰,主宰着基因表达的命运。这些元素通过与转录因子(TFs)和核小体等调控蛋白动态结合,构成了细胞分化、发育以及衰老过程中基因调控网络的核心。然而,如何在全基因组范围内精准解析这些调控蛋白的动态分布及其作用逻辑,始终是功能基因组学领域的一大挑战。
来自麻省理工学院与哈佛大学布罗德研究所(Broad Institute of MIT and Harvard)的HU Yan博士最近在《Nature》杂志发表了一篇题为《Multiscale footprints reveal the organization of cis-regulatory elements多尺度足迹揭示了顺式调控元件的组织结构》的研究论文。
该研究开发了一种名为PRINT的新方法,并结合深度学习框架seq2PRINT,为解析CRE的多尺度结构与功能提供了全新的工具。研究通过人类骨髓细胞和小鼠造血干细胞的单细胞染色质开放性数据,描绘了调控元件在分化与衰老过程中的动态变化。以下将通过深入解读,带您一探这项研究的科学魅力。
开启基因调控的“指纹”密码
顺式调控元件就像是基因表达的开关,通过整合转录因子及其他调控蛋白的结合,实现基因表达的精确调控。长期以来,科学家依赖ChIP-seq等技术定位这些调控蛋白,但这些方法存在无法全面解析所有调控蛋白结合的局限。近年来,单细胞转座酶可及染色质测序(scATAC-seq)技术以其高分辨率的染色质开放性数据,成为研究CRE的有力工具。然而,传统的DNA足迹分析方法往往受限于酶切偏好性,且主要集中在小规模转录因子结合位点(约20个碱基对),难以全面覆盖复杂的调控蛋白动态。
HU Yan博士团队开发的PRINT工具,通过校正酶切偏好性,构建了多尺度的DNA–蛋白结合足迹。这种方法不仅涵盖了小型转录因子的结合位点,还能够解析核小体等更大尺寸的调控蛋白结合模式,从而全面揭示CRE的多层次调控逻辑。
深度学习赋能:seq2PRINT的破局之道
PRINT提供了丰富的足迹信息,但如何从中提取复杂的调控逻辑?研究团队进一步开发了seq2PRINT,一个结合深度学习的计算框架,通过解析DNA序列层面的多尺度足迹,实现了高精度的转录因子和核小体结合预测。
在实验中,seq2PRINT不仅在大规模数据(bulk数据)中表现出色,更在单细胞数据中展现了强大的解析能力。通过分析人类骨髓细胞的scATAC-seq数据,研究发现顺式调控元件的动态变化贯穿了整个造血分化过程。例如,红系和淋巴系细胞中的CRE逐步被激活,其中心往往由先锋因子占据,随后逐步扩展,招募更多的调控蛋白。这一分步激活的模型揭示了调控网络中“序列驱动”的重要性。
衰老的印记:小鼠造血干细胞的调控新视角
衰老是影响基因调控网络的重要因素。研究进一步将seq2PRINT应用于小鼠造血干细胞,解析了顺式调控元件在衰老过程中的结构变化。结果显示,随着年龄增长,核小体在CRE中的分布发生了显著改变。例如,Yy1和Nrf1等与核小体相关的转录因子活性显著降低,而Ets和Runx家族成员则在新的结合位点上显现出增强的结合活性。这些变化不仅揭示了衰老过程中调控网络的重塑,还为理解与衰老相关的疾病机制提供了新的视角。
前景与启示:解码基因调控的未来
胡彦博士团队的研究展示了多尺度足迹结合深度学习解析基因调控网络的潜力。PRINT和seq2PRINT不仅在科学研究中具有广泛的应用前景,还为疾病相关的基因调控研究提供了强有力的工具。从造血分化到衰老,这一系列发现让我们看到了CRE调控的复杂性与动态性。未来,随着更多数据的积累与工具的优化,我们或许能够绘制出更为完整的基因调控地图,为基因组医学和个性化治疗开辟新的道路。
正如星空中每一颗闪烁的星辰,顺式调控元件的“印迹”亦在悄然指引着生命的奥秘。这项研究不仅为科学家提供了新的工具与视角,更向我们揭示了基因调控网络的宏大图景:在微观尺度的足迹中,蕴藏着生命的答案。