怎么理解3D基因组-HiC数据分析？

文摘 2024-08-18 02:11 美国

Hi-C是一种用于测量基因组中不同位置之间的三维相互作用的技术。它可以用于研究基因组的结构和功能，比如基因调控、染色体域、环状结构等。

Hi-C的原理是基于染色质连接捕获（3C）的方法，它利用形式甲醛将空间上相邻的染色质片段交联起来，然后用限制性内切酶将交联的染色质切割成小片段，再用连接酶将切割后的片段连接起来，形成嵌合的连接产物。Hi-C的特点是它可以全面地测量基因组中任意两个位置之间的相互作用，而不是局限于特定的区域或目标。它通过在连接处引入生物素标记的核苷酸，然后用亲和纯化的方法，将含有连接处的DNA片段富集并进行深度测序。Hi-C的结果是一个相互作用矩阵，其中每个元素表示两个染色质片段之间的联系频率，也就是它们在空间上相互接近的概率。联系频率可以反映染色质片段之间的距离和紧密程度，从而揭示基因组的三维结构特征。

我们提出了分析由Hi-C生成的全基因组染色质相互作用图的指导方针，但其中许多考虑因素也适用于3C-seq或其他等效数据。

01. Hi-C数据分辨率

Hi-C实验的所有可能相互作用的空间非常大。例如，考虑人类基因组。使用6-bp切割限制酶，几乎有10^6个限制片段，导致相互作用空间约为10^12个可能的成对相互作用。因此，实现足够的覆盖范围以支持最大分辨率是一项重大挑战。但是，可以通过将限制片段聚集到固定大小的bins中来减少相互作用空间，从而降低分辨率，这反过来又增加了有效覆盖范围（参见Binning部分）。

鉴于此，确定实验目标至关重要，这意味着人们最感兴趣的是大规模基因组构象（例如基因组区室）还是特定的小规模相互作用模式（例如启动子-增强子环路）。如果目标是测量大规模结构，例如基因组区室，那么较低的分辨率通常就足够了（1MB-10MB）。这里，可以使用使用传统6bp切割酶的Hi-C。但是，如果目标是测量小区域的特定相互作用，例如启动子-增强子环路，则应选择使用切割频率更高的限制性酶（例如4bp）和不检测整个基因组的方法，而是专注于探索基因组的子集（即3C/4C/5C）。

在Hi-C中，数据集的最大有效分辨率由几个因素决定，首先是覆盖范围：随着reads量的增加，将覆盖更多的交互空间，从而提高最大分辨率。文库复杂性是另一个因素：文库复杂性定义为Hi-C库中存在的独特嵌合分子的总数，它是细胞数量和库质量的一个因素。复杂度较低的库将随着测序深度的增加而迅速饱和，例如，从额外的测序中获得的信息将减少。可以通过绘制观察到的独特相互作用的累积数量与增加的reads深度的关系，从数据集中估算出饱和曲线。根据我们的经验，一个足够复杂的人类基因组Hi-C数据集，大约有1亿个映射/有效连接reads，足以支持40kb的数据分辨率。低于40kb的数据可能可用，但它会受到更高水平的噪音的影响。值得注意的是，有效分辨率与基因组距离成比例，因此短距离相互作用通常具有更高的覆盖率，从而具有更高的有效分辨率。

02. 计算考虑因素

深度测序产生的 Hi-C 数据与其他全基因组深度测序数据集并无不同。数据以传统 FASTQ 文件格式的基因组读取开始（包含 DNA 读取字符串和 phred 质量 (QV) 分数字符串）。Hi-C 文库传统上采用双端技术进行测序，其中从分子的每个 5' 端产生单个读取。但是，Hi-C 连接产物也可以使用单端读取进行测序，假设读取足够长以覆盖嵌合分子（连接产物）的两个部分并在映射步骤中得到适当处理（参见读取映射部分）。

Hi-C数据集的数据存储要求几乎完全由实现所需分辨率所需的测序深度和FASTQ文件的大小决定。处理后的Hi-C数据通常比FASTQ文件的大小小几个数量级。很容易将reads map到基因组所需的步骤并行化，从而显著加快Hi-C处理步骤的速度。大多数Hi-C特定的过滤和处理步骤都是独立的，因此也可以并行化。

03. Hi-C工作流程

这里描述了处理Hi-C数据集所需的主要步骤（图 1）：

1. Read Mapping

2. Fragment Assignment

3. Fragment Filtering

4. Binning

5. Bin Level Filtering

6. Balancing

1. Read Mapping

可以使用任何标准读取比对软件（如Bowtie）将reads比对到感兴趣的基因组。任何比对器都可用于map Hi-C reads：目标是简单地为每个read找到唯一的比对。即使使用双端读取对Hi-C数据进行测序，读取也不会使用大多数比对器的双端模式进行map。大多数比对器的双端模式假设正在对单个连续基因组片段的末端进行测序，并且这两个末端之间的距离符合已知分布。由于Hi-C连接产物的插入片段大小可以在1bp到数百兆碱基之间变化（就线性基因组距离而言），因此很难按原样使用大多数双端比对模式。一种简单的解决方案是使用标准比对程序分别/独立地map双端读取的每一侧。

Read Mapping – Iterative Mapping Strategy（迭代比对策略）

Hi-C方法创建了不同大小的连接接头（图 2a）。然后将分子剪切到所需的大小范围（通常为100bp–300bp）。Hi-C相互作用只是嵌合连接产物，由两个不同的基因组片段在中间连接而成。因此，可以对分子的末端进行测序，以最有效地识别连接产物中的两对。但是，也可以读取整个分子，然后通过计算分离/识别两个不同的基因组片段，尽管连接位点的确切位置未知。

这里，要认真理解下迭代mapping的策略，以及filter valid pairs都过滤掉哪些reads。。。

可以搜索连接点，但不能保证连接点被短读段覆盖。例如，给定一个300bp Hi-C连接产物，其中连接点位于分子的第150位（在中心），如果要执行传统的50个碱基对配对末端测序，则只能对每个末端的50个碱基进行测序。即使仍然可以正确识别每个相互作用对，也不会对该分子的200个内部碱基进行测序。首先搜索连接点，然后将读段分成两个，这是没有帮助的，因为没有测量连接点。相反，我们倾向于使用迭代map方法来解决这个问题（Imakaev 等人，2012 年）（图 2b）。这个想法是在序列到达连接点之前尝试映射尽可能短的序列。首先从5’端开始将读段截断为25bp，然后映射到基因组中。未唯一映射基因组的读取将额外延长5bp，然后重新映射。重复此过程，直到所有读取都唯一映射或读取完全扩展。仅保留每侧可以唯一对齐的配对末端读取。所有其他配对末端读取均被丢弃。

2. Fragment assignment

对于每个mapped read，基因组比对位置被分配给其中一个限制性片段，因为它们可以从基因组序列中提前计算出来。映射读取根据其 5'map位置被分配给单个限制性片段。map reads位置应靠近限制性位点，并且距离不超过最大分子长度。接近是一个相对术语，由分子大小分布定义。给定一个正常的Hi-C实验，其剪切为100bp-300bp，每个分子内连接点的位置应正态分布在分子中心周围。map read相对于连接位点的位置应遵循此正态分布。与最近的限制性酶距离超过最大分子长度的读取是由于非规范酶活性或非酶物理染色质断裂。研究表明，这些reads会产生有用的Hi-C相互作用，因此不会被歧视 (Imakaev 等人，2012 年)。一旦每个read被分配到限制性片段，就必须应用过滤来丢弃数据集中的任何技术噪音。

3. Fragment-level filtering

将每个双端read分配到单个片段后，需要执行一些基本过滤。可能出现以下两种情况：

a. 读取对位于同一限制性片段内。

b. 读取对位于不同的限制性片段内。

如果reads对映射到同一限制性片段，则它可以表示未连接的片段（“dangling end,悬垂端”）或连接的环化片段（“self-circle,自环”）。这两种情况均被视为无信息量，因此应将其删除。但是，这些数据可能用于其他分析。删除相同片段对后，过滤剩余的对以删除任何冗余（相同）PCR产物。可以通过共享完全相同的双端序列或共享完全相同的 5' 对齐位置来检测 PCR 重复。还可以过滤可能未消化的限制位点，这可以通过map到同一链的两个reads以及两个映射位置之间的距离较小（适合分子尺寸分布）来识别。

Binning

Hi-C 数据集的分辨率由所使用的限制性酶决定。通常，Hi-C数据集的测序深度不足以支持这种最大数据分辨率，因为获取足够数量的读取还不具成本效益。相反，可以将数据分箱成各种固定的基因组间隔大小，以聚合数据并消除噪音。Hi-C限制性片段按其中点坐标分配到箱中。对 Hi-C数据进行分箱可降低复杂性和可能的全基因组相互作用的数量，从而提高信噪比。数据通常被分箱成40kb到1MB的大小。所有箱间相互作用都通过求和来聚合，尽管可以使用其他更强大的方法来聚合信号。单个Hi-C数据集可以分箱成多个箱大小，因为每个箱大小可用于不同的分析目标。分箱后，数据可以以固定大小的对称矩阵格式存储，但这种文件格式可能不是存储大型Hi-C数据集的最佳选择，因为矩阵条目的数量可能比读取的数量大得多。

Bin-level filtering

在矩阵平衡之前，建议从数据集中删除任何噪声很大或信号太低的箱（行/列）。这些箱通常位于可mapping性低或重复内容高的基因组区域，例如端粒和着丝粒周围。由于这些箱受到如此高的噪声水平的影响，因此将它们移除比试图纠正技术偏差（见下文）更有帮助。可以使用各种方法来检测这些箱异常值。当前方法通过将单个箱总和与所有箱的总和进行比较来检测信号较低的箱。可以通过百分位数截止值（例如，删除行/列的底部 1%）或使用方差作为噪声度量来检测异常值。同样，可以通过基于百分位数的过滤器（例如，删除数据点的前0.5%）检测异常点交互（bin-bin）。在某些情况下，单个bin-bin点交互的读取水平可能比预期高出几个数量级。

Balancing

Hi-C数据可能包含许多不同的偏差，其中一些偏差的来源已知，另一些偏差的来源未知。Hi-C偏差校正通常有两种方法：显式和隐式。显式偏差模型考虑了可mapping性、GC含量和片段长度等因素（Yaffe和Tanay 2011；Hu等人 2012；Cournac等人 2012）。或者，由于很难了解每个偏差，因此可以使用一种隐式方法，我们称之为平衡（在其他地方称为迭代校正（Imakaev等人，2012）。平衡程序基于Sinkhorn-Knopp平衡算法（Sinkhorn和Knopp，1967）。此过程尝试通过均衡矩阵中每一行/列的总和来平衡矩阵。该过程基于以下假设：由于我们以无偏的方式询问整个交互空间，因此每个片段/箱在实验中应被观察大约相同的次数（解释为交互矩阵中全基因组行/列的总和）。该算法在两个步骤之间迭代交替直至收敛。首先，将每一行除以其平均值。然后，将每一列除以其平均值。这个过程保证收敛。显式偏差校正和 Sinkhorn-Knopp平衡都产生可比的结果（Imakaev等人，2012）。无论使用哪种方法，重要的是在偏差校正之前和之后直观地评估数据，以确定该过程是否成功。成功的过滤和偏差校正将平滑交互矩阵，这样就不会留下明显较高的行/列。

在对Hi-C数据进行mapping、过滤和偏差校正后，我们得到了一个分箱的全基因组相互作用矩阵，其中每个条目都反映了两个基因组位点之间的相互作用频率。测量到的相互作用频率是未缩放的，也就是说它们不能直接转化为实际的细胞比例。从这个相互作用矩阵中提取相关的生物学知识是Hi-C数据分析的主要挑战之一。这包括区分生物信号和噪声、识别相互作用模式和解释这些模式。

Analysis and interpretation of Hi-C data

有许多因素使这种分析变得复杂。首先，我们必须考虑到我们正在测量一群细胞的相互作用频率（图 4）。这对于数据解释至关重要，因为当我们考虑由多对位点组成的相互作用模式时，我们无法区分相互作用在单个细胞中同时发生、相互排斥或介于两者之间的情况。因此，观察到“平滑”的相互作用矩阵，该矩阵几乎没有位置特异性结构，并不排除底层基因组中存在结构-它只是意味着如果存在这样的结构，它们在细胞之间是不一致的。其次，当前分析方法的一个局限性是模式通常是隐式定义的，而不是显式定义的。换句话说，相互作用模式不是正式定义特定的相互作用模式并在相互作用矩阵中搜索它，而是定义为某种方法的输出。例如，基因组区室显示为棋盘状的相互作用模式（参见相关部分），但它们是使用不明确搜索此模式的方法（即主成分分析）来识别的。因此，很难评估方法的有效性或比较旨在识别相同类型相互作用模式的方法。第三，不同类型的相互作用模式共存且相互重叠。鉴于在许多情况下我们缺乏对这些模式的明确定义，如上所述，很难解开不同类型的相互作用模式。实际上，许多当前方法在独立性的简化假设下分别分析每个交互模式，即假设其他模式的影响可以忽略不计，或者其他模式可以从数据中标准化。第四，重要的是要记住 Hi-C 测量的是基因座之间的交互频率，而不是距离。甲醛交联只会发生在物理相互作用的基因座之间。因此，两个基因座之间的弱 Hi-C 信号表明相互作用发生在一小部分群体中，但如果不做出一些关于交互频率与物理距离关系的简化假设，我们就无法确定两个基因座之间的距离。最后，我们不能假设交互频率的遍历性。换句话说，细胞群中的频率不一定能解释为时间频率（见图 5）。例如，在一小部分细胞中发生的相互作用，因此在 Hi-C 中产生弱信号，不能断定一定是不稳定的相互作用。或者，任何遍历性的假设都应该有意识地做出。

参考文献：

Lajoie BR, Dekker J, Kaplan N. The Hitchhiker's guide to Hi-C analysis: practical guidelines. Methods. 2015 Jan 15;72:65-75. doi: 10.1016/j.ymeth.2014.10.031. Epub 2014 Nov 6. PMID: 25448293; PMCID: PMC4347522.

免责声明：推文基于已公开的资料信息撰写，用于传递最新热点资讯，在任何情况下，本文中的信息或所表述的意见均不构成对任何人的建议。如因版权等有疑问，请于本文刊发30日内联系本公众号删除。更多精彩内容欢迎关注和分享公众号

科研这点事儿

科普分子生物学知识，关注前沿生物技术，聚焦表观遗传学。