转录调控元件的大规模平行表征
人类基因组包含数百万个候选顺式调节元件 (cCRE),这些元件具有塑造健康和许多疾病状态的细胞类型特异性活性1.然而,我们对控制这些 cCRE 的活性和细胞类型特异性特征的序列特征缺乏功能理解。
在这里,我们使用基于慢病毒的大规模平行报告基因测定 (lentiMPRAs) 来测试超过 680,000 个序列的调节活性,这些序列代表了三种细胞类型 (HepG2、K562 和 WTC11) 中一组广泛的注释 cCRE,发现这些序列中有 41.7% 是活性的。通过测试两个方向的序列,我们发现启动子具有链方向偏差,其 200 个核苷酸的核心充当非细胞类型特异性的“开启开关”,为其相关基因提供相似的表达水平。相比之下,增强子具有较弱的方向偏差,但增加了组织特异性特征。
利用我们的 lentiMPRA 数据,我们开发了基于序列的模型,以高精度预测 cCRE 功能和变体效应,描绘调节基序并模拟它们的组合效应。测试包含所有三种细胞类型中 60,000 个 cCRE 的 lentiMPRA 文库,进一步确定了决定细胞类型特异性的因素。总的来说,我们的工作提供了三种广泛使用的细胞系中的功能性 CRE 目录,并展示了如何使用大规模功能测量来剖析调节语法。