论文标题:Bibliometric review of ATAC-Seq and its application in gene expression
刊登日期:2022 年 5 月
发表杂志:Briefings in Bioinformatics
2022年影响因子:13.994
研究机构:西北工业大学生命科学学院
DOI:10.1093/bib/bbac061
随着高通量下一代测序技术的最新进展,我们现在能够在多个层面描述基因的调控和表达。转座酶可及性染色质测序(ATAC-Seq)利用Tn5转座酶对基因组中无蛋白结合区域进行切割测序,可以与ChIP-Seq和RNA-Seq相结合,为基因表达提供详细描述。在这里,作者回顾了有关 ATAC-seq 的文献,并描述了 ATAC-seq 出版物的特点。然后,简要介绍了 RNA-seq、ChIP-seq 和 ATAC-seq 的原理,重点介绍了这些技术的主要特点。作者从之前使用 ATAC-seq 研究过的物种进行了系统发育树的构建,得出小鼠和人的研究约占总 ATAC-seq 数据的 90%,而其他物种的数据也仍在积累中。最终总结了人类疾病和其他物种的研究成果,展示了多组学数据分析的前沿发现和在当前研究中的作用。此外,作者收集并比较了 ATAC-seq 分析流程,为缺乏编程技能的生物学研究人员提供更好地分析和探索 ATAC-seq 数据条件。通过这篇综述,可以清楚地看到多组学分析和单细胞测序技术将成为未来研究的主流方法。
基因研究是生物学中一个永恒的话题。我们对基因的理解——包括核苷酸序列、基因结构、基因功能和表达——已经达到了前所未有的水平。在真核生物中,遗传物质DNA与组蛋白结合形成核小体,这些核小体进一步折叠并凝聚成染色质。在DNA复制和转录的过程中,某些染色质区域会被打开,即核小体被耗尽。调控元件,如转录因子(TFs),能够结合到开放区域的被暴露的DNA位点上,调控DNA复制或转录。此外,染色质结构还会经历动态的表观遗传修饰,例如DNA甲基化、组蛋白修饰和染色质重塑等。
由于蛋白质与DNA之间的相互作用影响基因表达,这一直是研究者极为关注的重点。免疫沉淀是一种利用抗体结合原理进行蛋白质富集的技术,它是染色质免疫沉淀结合测序(ChIP-Seq)的基础,即结合目标DNA并被测序,以揭示其在基因组中的结合位点。最近,ATAC-Seq技术利用Tn5转座酶仅切割那些未被结合蛋白保护的DNA区域,被用来检测染色质结构的动态变化。因此,ATAC-Seq和ChIP-Seq在技术层面上具有高度的一致性和互补性。ATAC-Seq和ChIP-Seq可以整合使用,以探索蛋白质调控基因表达的机制,从而可能识别由转录启动调控因子引起的转录差异。与RNA-Seq结合,以确定特定RNA的表达水平,ATAC-Seq和ChIP-Seq可以整合提供基因表达调控的统一视图。多种测序方法的综合分析为基因组的功能特征注释提供了有力的手段,揭示了生物学前沿的基因调控机制。
本文主要讨论 ATAC-seq、ChIP-seq 和 RNA-seq,这三种方法主要关注表观基因组和转录组。首先,回顾一下 ATAC-seq 的文献,然后,描述一下三种测序方法的基本原理,重点介绍了它们的整合使用,并展示一系列来自疾病和物种的示例。最后,比较了 ATAC-seq 数据分析中使用的分析流程,为缺乏编程技能的生物科学家提供参考,以便他们更好地处理数据并尝试使用已建立的计算流程。
自2013年首次描述ATAC-seq技术以来,使用该技术的论文数量呈指数级增长(图 1A)。2013年至2021年间共发表了1016篇论文,表明ATAC-seq技术是一种广泛且日益增长的使用方法。同时,结合使用ChIP-seq和RNA-seq与ATAC-seq的研究也在稳步增加,表明全面多组学数据分析的趋势正在增长。具体来说,作者发现2015年至2021年间有336篇文章结合使用了ATAC-seq和RNA-seq,以及244篇文章结合使用了ATAC-seq和ChIP-seq。每年结合使用这三种技术的文章数量也在迅速增长。ATAC-seq研究已经出现在200多个不同领域的期刊上。图1B显示了前50种期刊,其中两个最常见的期刊是《Nature Communications》和《Scientific Reports》,每个期刊都有超过30篇文章。除了这两个期刊外,《Nucleic Acids Research》、《Genome Biology》、《eLife》、《Cell Reports》、《Genome Research》、《Cell》、《Methods in Molecular Biology》和《Bioinformatics》是发表文章最多的前10个期刊,每个期刊都有超过18篇文章。这些数据表明,ATAC-seq技术在各个研究领域中具有广泛的应用前景,并且多组学分析方法在未来的生物学研究中将变得越来越重要。ATAC-seq研究的一个主要主题是识别染色质结构和可及性。表观遗传变化与癌症和其他疾病的发生发展密切相关。因此,作者统计了使用ATAC-seq和/或其他测序技术研究癌症等其他疾病的出版物,共得到204项研究,其中包括36种癌症和57种疾病。统计发现,每年癌症研究和其他疾病的数量,且近年来呈指数级增长趋势(图1C)。
图1:ATAC-seq 的文献计量学和数据集统计
为了获得ATAC-seq研究主题的相关方向,作者从ATAC-seq文章的摘要中提取了关键词(图2A),并分析了它们与“ATAC-seq”一词的共现情况。最常见的共现词(较大的圆圈),如基因、染色质等分析,是ATAC-seq的主要目标,而较小圆圈中的词则表示ATAC-seq的更细致的主题。不同圆圈之间的线条连接两个词,表明它们来自同一篇文章。因此,出现频率更高的词会存在更多的连接。在提取这些关键词的同时,还分析了包含这些词的文章的出版时间;每个术语的平均出现时间由图2A中的颜色表示。最早的文章(深蓝色)侧重于功能探索(如表观、位点等),而后来的文章(绿色)倾向于更多地关注数据分析(如工具、数据分析等),最近的文章(橙色)扩展到包括各种生物学主题(如生物学过程、通路、治疗等)。此外,这些通常与ATAC-seq联合分析,以提供更全面和有说服力的论证,而两个关键词ChIP-seq和RNA-seq的存在揭示了转录调控的技术联合。经常共现的词被分为三个簇(虚线椭圆):蓝色簇(方法开发簇)侧重于ATAC-seq在分子水平上的方法和用途,如DNA可及性、增强子和转录因子;绿色簇(数据分析簇)侧重于ATAC-seq的分析,从上游测序到下游数据分析,如样本准备、实验过程和数据分析;红色簇(表型调查簇)更侧重于实际应用,如基因、调控、途径和疾病。这些三个簇随时间的变化而被统计(图2B),结果显示表型调查簇正在增长,而其他两个簇正在下降,表明ATAC-seq在更实际的应用中正在发展其价值。
图 2:ATAC-seq 文章中的关键词相关性分析及聚类变化
(A)关键词相关性分析。(B)聚类随时间的变化。
生命的遗传物质是DNA,它由四种核苷酸组成,具有四种不同的碱基:腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤。DNA转录形成RNA,然后翻译成多肽链。DNA复制过程是下一代测序(NGS)技术(即边合成边测序)的基础。在NGS测序方法中,将接头添加到DNA模板的两端,用于定位和结合DNA聚合酶,使其与附着在固体基质上的互补寡核苷酸杂交,在固体基质上使用PCR扩增每个片段,形成由原始DNA片段衍生的相同DNA分子簇。检测每个荧光标记的脱氧核糖核苷酸碱基添加到模板链中,以确定DNA链中的碱基序列。NGS 技术的发展和进步为其他技术的出现奠定了基础,包括 RNA-seq、ChIP-seq 和 ATAC-seq。如图所示(图 3A),简要描述了这三种技术的原理及其促进我们对表观基因组学和转录组学理解的能力。这些技术日趋成熟,并不断完善,重点介绍它们可能与其他技术联合的特点。
图 3:ATAC-seq 的原理和工作流程
( A ) ATAC-seq、ChIP-seq 和 RNA-seq 的原理。( B ) 通用 ATAC-seq 数据分析流程。
信使 RNA 为构建蛋白质提供了蓝图,但基因的转录在不同细胞和不同时间点均存在差异。基因的选择性表达使单个基因组能够产生不同的蛋白质,从而导致细胞形态和功能的差异。因此,转录组是探索基因功能的重要一步。与微阵列和低通量测序技术等早期方法相比,RNA 测序可以更精确、更全面地测量转录本的表达水平。与DNA测序相比,RNA测序仅在额外的样品制备步骤上有所不同,因为需要将RNA转化为DNA,然后以与DNA样品相同的方式处理。对DNA样品进行样品质量控制和测序,但下游分析存在显著不同。简而言之,将序列读取与参考基因组或转录组比对,并根据每个基因或异构体的读取数来量化表达水平。RNA测序已成为生物学中最常用的工具之一,它改变了我们对转录组复杂性的看法,为转录和转录后基因调控提供了新的信息。此外,RNA测序加深了我们对RNA生物学的理解,即它能够准确描述转录和控制RNA功能的分子间相互作用。通过单细胞分离等技术,可以检查特定细胞类型的小样本中的转录组变化,即单细胞RNA测序(scRNA-seq)有助于深入了解细胞内基因表达的调控,并提供了一种解决细胞异质性的方法。Haque等人提供了将scRNA-seq用于生物医学和临床目的的指南,列出了使用scRNA-seq时可能遇到的问题,包括方案选择和生物学解释。特别是,研究人员必须了解数据处理的步骤和原理,以获得正确且可重复的结果。scRNA-seq已应用于广泛的研究,例如癌症治疗、传染病和干细胞分化的调控。
蛋白质在基因表达中起着重要作用。蛋白质-DNA 相互作用会影响源头的转录水平,而 ChIP-seq 技术可以在全基因组范围内检测与组蛋白和 TF 相互作用的 DNA 片段。在 ChIP-seq 中,首先对染色质进行免疫沉淀,以特异性地用与目标蛋白结合的 DNA 片段富集样品。然后纯化 DNA 片段,构建测序文库(图 3A),并通过 NGS 对 DNA 文库进行测序。通过准确定位基因组上的序列片段,研究人员可以获得与组蛋白、TF 和其他蛋白质相互作用的 DNA 片段的全基因组信息。由于其能够检测蛋白质-DNA 相互作用,因此具有多种应用:(i) 定位 TF 结合位点和 TF 介导的基因的潜在差异调控;(ii) 研究蛋白质修饰以剖析表观遗传特征和生物学功能;(iii) 获取核小体定位图谱。通过解读测序数据,ChIP-seq 可以将表观遗传变化与疾病的发生和进展联系起来。由于蛋白质在转录水平上的影响明显,ChIP-seq 与 RNA-seq 很快就被整合在一起。分析这两个测序数据集,可得到包括 TF 结合位点的位置聚类、转录本发现、表达量化等细节信息。
随着对基因调控机制理解的不断深入,发现表观遗传学的变化起着重要作用。这些变化被视为 DNA 碱基修饰和染色质结构。我们可以使用各种各样的测序技术来测量从低到高水平染色质结构的表观遗传学变化。例如,用于 DNA 甲基化的亚硫酸氢盐测序,用于基因组 3D 结构的高通量染色体构象捕获(Hi-C)技术,DNase I 结合深度测序(DNase-seq),微球菌核酸酶消化结合深度测序(MNase-seq),甲醛辅助分离调控元件(FAIRE-seq)和 ATAC-seq等等。在 ATAC-seq 中,从细胞或组织样本中分离出核质后分离出细胞核,并用转座酶切割核染色质。紧密包裹的染色质 DNA 不会被转座酶切割,而染色质 DNA 的开放区域则会随机碎裂。使用转座酶的特殊优势在于它可以切割 DNA 然后直接将其连接到测序接头上,从而简化流程并减少实验过程中的伪影和噪音。然后,纯化碎裂的 DNA,构建测序文库,并通过 NGS 对样本进行测序。将测序片段映射到参考基因组后,就可以识别开放染色质的区域。简而言之,典型的 ATAC-seq 数据分析包括六个步骤:(i) 原始测序读段的质量控制;(ii) 将读段与参考基因组比对;(iii) 峰值调用;(iv) 峰值注释;(v) 差异分析;(vi) 其他下游分析,如基序富集分析 (图 3B )。由于 ATAC-seq 不需要抗体,因此它提供了一种有效的方法来表征表观遗传景观并识别潜在的顺式调控模块。
与其他技术相比,ATAC-seq 具有所需样本量更少、样本制备时间更短和可靠性更高的优势。凭借其无与伦比的优势,ATAC-seq 迅速成为研究开放调控区域的有效方法。但在此过程中需要注意一些事项:(i)通常需要额外的步骤来去除线粒体 DNA 的污染,这可以通过实验和分析来完成;(ii)一些高通量测序技术不可避免地会产生错误或偏差。研究发现,Tn5 转座酶优先靶向核小体 DNA 的进出位点,这可能导致测序结果有偏差。但这种转座酶偏差可以通过开发计算工具或改进统计模型来纠正,比如使用位置依赖模型来校正偏差等。
与 RNA-seq 和 ChIP-seq 类似,ATAC-seq 也正在转向单细胞水平。ATAC-seq 已被整合到可编程微流控平台中,用于测量哺乳动物 DNA 调控区变异。然而,单细胞 ATAC-seq 数据需要更仔细的数据分析。通过整合转座酶可及性染色质测序 (scATAC-seq) 和 scRNA-seq 的单细胞分析,可以将差异可及性和差异基因表达联系在一起。
总之,表观基因组和转录组的结合是必要的。从根本上讲,转录组是转录、转录后调控和RNA降解的内容,而表观基因组则提供了转录起始的视角。此外,以活性TFs和其靶基因结合为特征的基因调控网络可以导致细胞类型特异性的转录状态,从而决定细胞的异质性。
自2013年首次使用ATAC-seq以来,已从多物种产生了大量ATAC-seq数据。作者GEO数据库收集了使用ATAC-seq的实验物种信息,结果包括来自65个物种的2000多个数据集。然后,根据这些物种之间的进化关系构建了一个系统发育树。这棵树有四个分支,分别代表了四个界:动物、植物、真菌和原生生物(图4)。树包括49种动物,如小鼠(Mus musculus)、人类(Homo sapiens)、果蝇(Drosophila melanogaster)、斑马鱼(Danio rerio)、大鼠(Rattus norvegicus)、猕猴(Macaca mulatta)等;9种植物,如玉米(Zea mays)、小麦(Triticum aestivum)、水稻(Oryza sativa)、拟南芥(Arabidopsis thaliana)、白杨(Populus trichocarpa)等;5种真菌,如酿酒酵母(Saccharomyces cerevisiae)、粗糙脉孢菌(Neurospora crassa)等;以及只有2种(弓形虫Toxoplasma gondii和疟原虫Plasmodium falciparum)原生生物。其中鉴于小鼠和人类主要占总数据量的约90%,而大多数其他物种仍在积累数据的过程中。
图 4:应用 ATAC-seq 数据绘制的 65 个物种的系统发育树
四种颜色对应四个界,外圈表示每个物种的 GEO 实验数量。
表观遗传变异被认为是癌症的病因之一。包括胰腺癌、肝癌和膀胱癌在内的癌症研究利用ATAC-seq和其他测序技术(如RNA-seq和ChIP-seq)发现了新的调控机制,并指出表观遗传调控可能是一个有前途的抗癌靶点。在白血病中,最近的一项研究回顾了Ikaros蛋白的作用。使用ChIP-seq、RNA-seq、ATAC-seq和其他功能实验表明,Ikaros既调节整体表观基因组过程,也调节其靶基因启动子区域的表观遗传特征。此外,公共数据集为多组学分析提供了越来越多的实用数据。一项研究从Cancer Genome Atlas获得了公共数据,并整合了23种癌症类型的不同测序数据。他们尝试使用ATAC-seq来协助识别远端调控元件,并促进癌症类型的分类。RNA-seq 和 ATAC-seq 的一次联合分析揭示了与基序保护和核小体重新定位相关的因素。RNA-seq 和 ATAC-seq 与配对数据集的另一次联合分析提供了一个定量模型,将调控元件的可及性与预测靶基因的表达联系起来。最后,全基因组测序 (WGS-seq) 和 ATAC-seq 用于识别发生在调控区域的体细胞突变,从而显著提高染色质的可及性。除了癌症之外,染色质可及性变化已经在几种类型的疾病中得到了研究,例如 2 型糖尿病、阿尔茨海默病、骨关节炎、冠状动脉疾病、类风湿性关节炎、帕金森病和硬皮病等等。这些发现为致病机制和治疗靶点提供了重要见解。
在动植物以及真菌和原生生物中,表观遗传数据的广泛应用展示了对基因组和转录组复杂性深入理解的重要性。在小鼠中,通过ChIP-seq和ATAC-seq技术,研究了胚胎发育期间染色质的动态变化,特别是关注组蛋白修饰和染色质可及性对基因表达的调控。这些研究不仅揭示了染色质状态的空间和时间动态,还为基因组注释和转录组数据的整合提供了基础,推动了我们对细胞功能和发育过程的深入理解。在斑马鱼中,通过整合多种组学技术,如RNA-seq、ATAC-seq和ChIP-seq,生成了全面的转录组、染色质结构及其空间组织的图谱。这些研究不仅展示了不同调控元件的作用,还揭示了基因调控网络的复杂性,为理解发育过程和疾病模型提供了新视角。在植物领域,利用单细胞RNA测序和单细胞ATAC-seq技术,研究了拟南芥根部细胞类型间的染色质可及性差异,以及这些差异如何调节基因活性。在作物中,结合Hi-C和ATAC-seq技术,揭示了染色质环的角色及其与基因调控机制的关系,为优化作物基因组编辑和改良提供了新策略。在真菌和原生生物中,ATAC-seq和RNA-seq的应用揭示了环境应激对基因表达和染色质状态的影响。例如,对大型真菌进行的整合分析显示,ATAC-seq和RNA-seq共同识别了环境应激相关基因及其调控途径,为了解真菌适应环境变化的分子机制提供了关键线索。
综上所述,表观遗传数据的广泛应用不仅丰富了我们对基因组和转录组调控的认识,还为生物学研究提供了强大的工具和方法。随着技术的进步和数据分析策略的完善,我们可以期待在更多生物过程和疾病模型中揭示新的生物学见解和治疗策略。
ATAC-seq技术为探索表观遗传信息和转录调控机制提供了强大的工具,但其数据分析过程需要高级的计算和编程技能,以及对Unix或Linux操作系统和统计学的深入理解。这使得许多生物学家难以完全理解和解释ATAC-seq的结果。近年来,随着生物信息学工具和流程的发展,针对ATAC-seq数据的分析和可视化变得更加便捷和普及化。例如,最近的综述文章《Profiling Chromatin Accessibility at Single-cell Resolution》详细介绍了单细胞ATAC-seq分析的多种工具和流程,为研究人员提供了丰富的选择。
本文特别关注批量ATAC-seq数据的分析流程,总结了16种主要的分析工具。这些工具覆盖了从数据质控到差异分析等各个步骤,有些还支持多组学数据的集成分析,如ATAC-seq、DNase-seq和ChIP-seq等。不同工具具有各自的优势,例如易于使用分析(如ALTRE、atacR、esATAC、I-ATAC)、生成高质量图表(如ATAC-pipe、Recoup)、允许交互式分析(如DEBrowser、snakePipes)、以及集成多种分析工具的独立软件(如CIPHER、GUAVA、Octopus-toolkit)等等。然而,这些工具也存在一些挑战和限制。例如,大多数工具要求作为输入的原始测序数据文件可能非常庞大,达到数百GB,这对于普通笔记本电脑或工作站来说可能无法处理。另外,一些工具设计用于特定的分析目的,用户可能需要结合多种工具来完成全面的ATAC-seq分析。此外,集成多种工具的软件包可能需要大量计算资源,例如多核CPU和大内存。
综上所述,选择合适的ATAC-seq分析工具应根据具体实验目的和研究需求来进行权衡。不同工具的功能、数据类型支持以及计算资源要求都是选择过程中需要考虑的关键因素。随着技术的不断进步和工具的不断更新,我们期待ATAC-seq在生物学研究中发挥越来越重要的作用,为我们解析基因调控的复杂网络提供更多深入的理解和见解。
ATAC-seq的引入为理解染色质可及性提供了革命性的新视角。这一技术能够精确描绘染色质开放区域的分布,不仅在不同细胞类型和状态下展示出差异,还可以在时间和空间上捕捉到染色质结构的动态变化。单独使用ATAC-seq可以生成高分辨率的染色质可及性图谱,但其真正的力量体现在与其他组学技术的结合应用上。如:与ChIP-seq和RNA-seq的联合分析能够深入探索基因调控机制,揭示基因表达背后的染色质状态和转录因子的作用;与Hi-C技术结合使用,则能提供染色质的空间结构信息,揭示染色质区域之间的相互作用和基因组的三维组织等等。
然而,将不同测序技术和结果整合起来仍然面临一些挑战。多组学测序的高成本、结果的统一标准化难题以及不同实验批次效应的干扰,都影响了数据的解释和比较。新兴的测序技术正逐步涌现,旨在解决这些问题并拓展我们对生物学问题的认识。总体而言,当前的测序技术尚处于不断发展的阶段,随着新技术的出现和现有技术的改进,我们可以期待更加全面、详细的基因调控机制解析。未来的方向包括开发更为高效和灵活的分析工具,以便更好地整合和解释多组学数据,为生物学研究提供更加深入和全面的视角,推动我们对生命过程的理解迈向新的高度。
用户文章Mol Cancer:翻译组Polysome Profiling+m6A+miRNA联合揭示肠癌HSF1翻译机制
Plant Physiol:翻译组Polysome Profiling与m6A测序揭示玉米m6A自然突变及其与翻译状态的关系
万字综述:R-Loops和RNA-DNA杂合片段的起源、机制及生物学意义
Genome Res:翻译组Polysome+ChIP+小RNA揭示拟南芥逆转座子表观遗传激活小RNA的调控
本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!
扫描下方二维码
点分享
点点赞
点在看