“最近,几乎完整的人类基因组已经被测序,但它的许多功能区域仍然未知。我们的发现将DNA序列信息与其功能作用联系起来。我们希望这些结果将有助于更深入地了解生物现象,包括人类疾病和进化。”
一个国际研究小组在了解基因表达如何在整个人类基因组中受到控制方面迈出了重要的一步。一项新的研究全面分析了调节基因转录的DNA序列“顺式调控元件”(CREs)。这项工作揭示了这些元素如何促进细胞特异性基因表达,以及它们内部的突变如何影响健康和疾病。
CREs,包括增强子和启动子,对于控制基因何时何地开启或关闭至关重要。虽然它们的重要性是公认的,但大规模研究它们的活动一直是一项挑战。“人类基因组包含无数的CREs,这些区域的突变被认为在人类疾病和进化中起着重要作用,”该研究的第一作者之一Fumitaka Inoue博士解释说。“然而,要全面量化它们在整个基因组中的活动非常困难。”
为了解决这个问题,该团队使用了一种称为基于慢病毒的大规模并行报告基因测定(lentiMPRA)的尖端技术,该技术是作者之前开发的。这种方法通过标记独特的DNA条形码来追踪它们的活动,从而可以同时分析数千个CREs。利用lentiMPRA,研究人员在三种广泛使用的细胞类型中检测了多达68万个候选cre:肝细胞(来自肝脏的细胞)、淋巴细胞(一种白细胞)和诱导多能干细胞(一种由正常体细胞制成的人工干细胞)。
这项研究揭示了几个关键的见解。在这三种细胞类型中,大约41.7%的CREs表现出活性。启动基因转录的启动子显示出对序列方向的依赖性,但对细胞类型的特异性较低。增强子能促进基因转录,无论其方向如何,增强子都具有活性,并表现出细胞类型特异性。这些发现凸显了这两种类型的 CREs 在发挥功能方面的根本差异。
在这项研究中,研究人员基于大规模的实验数据,开发了几个机器学习模型来预测CREs的调节活动。MPRALegNet是一个在大量lentiMPRA数据集上训练的模型,被发现在预测任何DNA序列的调控活性方面是最准确和有效的。它的预测与实验结果密切一致,在某些情况下,它的表现与实验重复一样好。该模型还证明了其识别重要转录因子结合基序(即决定CRE活性的短DNA序列)的能力,从而提供了对特定因子如何驱动细胞类型特异性基因表达的见解。例如,该研究分别确定了HNF4和GATA基序对肝细胞和淋巴细胞的活性至关重要。
通过对增强子活性的精确鉴定和量化,该研究为探索人类疾病的分子机制开辟了途径。未来的研究将集中在应用这种方法来研究遗传多态性,DNA序列的变化有助于个体差异和疾病易感性。
“最近,几乎完整的人类基因组已经被测序,但它的许多功能区域仍然未知。我们的发现将DNA序列信息与其功能作用联系起来。我们希望这些结果将有助于更深入地了解生物现象,包括人类疾病和进化,”Inoue博士说。
本研究还为ENCODE门户网站提供了一个可公开访问的CRE活动数据库,为全世界的研究人员提供了宝贵的资源。通过将大规模实验数据与机器学习相结合,这项工作为基因组学和个性化医疗的未来发现奠定了基础。此外,lentiMPRA和MPRALegNet等工具的使用将有助于研究人员更好地解开基因调控的复杂性,并探索人类基因组广阔的未知领域。
参考文献
Massively parallel characterization of transcriptional regulatory elements