点击蓝字关注我们
随着Pore-C技术的出现,基因组学研究迎来了强大的工具,能够揭示染色质三维结构及其复杂的互作关系。相比于传统的 Hi-C技术,Pore-C不仅能捕获更长的DNA片段,还能提供多个基因组位点的互作信息,甚至包括甲基化修饰等表观遗传信息。然而,如何充分利用这些丰富的数据进行分析和评估,仍然是一个挑战。本文将对比Pore-C与Hi-C技术,介绍一种全新的Pore-C数据评估方法,帮助研究人员更好地利用Pore-C数据揭示基因组的多维结构。
1. Pore-C与Hi-C实验流程差异
a. Hi-C实验技术
Hi-C技术是基于高通量测序的染色质构象捕获技术,通过固定染色质互作、酶切、末端修复、环化、捕获互作片段并进行二代测序,揭示染色质三维结构。其具体的实验流程如下:
b. Pore-C实验技术
Pore-C技术基于染色质构象捕获技术(3C),结合第三代Nanopore测序,能够直接测序包含多个DNA相互作用片段的长链DNA,捕捉到更复杂的染色质互作结构。其实验流程如下:
Pore-C技术的优势在于:
• 实验流程更简单,无需生物素标记和PCR扩增。
• 能直接测序多个相互作用的DNA片段,捕获**Multi-contact**信息,揭示更高阶的染色质结构。
• 可同时获得DNA甲基化等表观遗传修饰信息。
虽然Pore-C技术能够提供甲基化修饰信息,但本文的重点将放在互作信息的评估上。
2. Pore-C与Hi-C分析方法差异
2.1 Hi-C的成熟数据分析流程:
a. Raw reads过滤:与常见的二代测序数据处理类似,首先进行质量控制和过滤。
b. 序列比对:将pair-end测序的reads比对到参考基因组。
c. 定位酶切位点:通过比对结果,找到reads pairs在基因组中的物理位置,并根据插入片段大小的限制,确定酶切位点。酶切位点代表DNA相互作用的大致位置。
d. 筛选有效比对片段:选取位于酶切位点两端且方向相反的reads pairs。
示意图如下:
2.2 Pore-C的分析流程:
Pore-C数据的分析与Hi-C有所不同,主要体现在如何处理测序reads以及如何从中提取有效的互作对。
以下是一个Pore-C测序reads的示例:
a. reads示例情况:
reads总长度:5400bp
A:1200bp B:1500bp【B1:700bp和B2:800bp】 C:2000bp D:300bp【D1:120bp和D2:180bp】 E:400bp
b. 方法一:采用“先酶切再比对”的策略。
相关流程:https://github.com/epi2me-labs/wf-pore-
c.具体步骤如下:
i. 根据酶切位点将DNA片段切开,形成携带reads标签的fragments。
ii. 将这些fragments比对到参考基因组。
iii. 根据fragments对比对结果和携带的reads标签组合成pairs,再进行过滤,提取有效的互作对(pairs)。
示意图如下:
这种方法在Pore-C数据分析中存在一些局限性。由于Pore-C的测序reads较长,实际未被酶切开的片段可能在生信算法中被过度切割,导致:
• 多位点比对:多个片段比对到基因组的不同位置,增加了误判的概率。
• 比对失败:部分片段可能无法准确比对到参考基因组,降低了有效数据的比例。
pairs数据比对示意图:
这种方法在Pore-C数据分析中存在一些问题,特别是酶切位点的密度可能导致实际未被切开的片段在生信算法中被过度切割,进而导致多位置比对或比对失败的概率增加,影响最终的有效数据率。
c. 方法二:为了充分利用Pore-C的优势,我们建议了一种新的分析策略:“先比对再剪切”。
相关流程:HiPore-C pipeline
具体步骤是:
i. 先将长reads完整地比对到参考基因组。
ii. 根据比对结果确定片段的相对位置,再进行剪切为fragments。
iii. 结合fragments和酶切位点,进行过滤,提取有效的互作对(pairs)。
这种方法类似于全长转录组测序的分析方法,能够更好地利用Pore-C的长reads特性,减少多位点比对或比对失败的情况,显著提高有效数据率。
示意图如下:
d. 两种方式计算数据有效率的差异
模型示意图的计算示例:
实测数据评估:
e. 数据意义:
Mean Fragment Count,可以看出平均多少个位点在一起互作;
Mean Fragment length,可以看出平均酶切的片段长度;
Total Valid Pairs,类似二代的有效数据率,可以看出总的有效互作数,以及效率占比;
Mean Valid Pairs Length,可以看出有效互作对的平均长度;
Contacts/Reads比,即Valid Pairs / Total Pairs,可以看出平均每条Reads提供的有效互作数目;
Valid Size/Total Size,可以看出测序数据的有效利用率;
3. 总结
Pore-C相比Hi-C具有显著的优势,尤其是在测序片段长度方面。每条Pore-C测序reads能够提供更多的互作信号,因此不能采用“先酶切再比对”的策略方法来评估Pore-C数据。该方法会显著低估Pore-C的Total Valid Pairs占比,无法充分展示Pore-C在多维互作方面的优势,而“先比对再剪切”的策略方法恰恰可以弥补这个不足,做到对Pore-C互作信息的准确评估。
此外,在追求Pore-C reads的N50或平均长度时,我们也需要注意,长度越长并不总是意味着Mean Fragment Count越多。有时,片段长度较大可能只是因为酶切后的片段较大。因此,在质控Pore-C数据时,使用基于比对的方法能够更加有效,同时结合Mean Valid Pairs Length和Contacts/Reads比,可以更好地评估数据的有效性。
Pore-C技术为基因组三维结构研究带来了前所未有的机会。相比Hi-C,Pore-C不仅能够捕捉到更长的DNA片段,还能够提供更多的互作信息。然而,传统的Hi-C分析方法并不适用于Pore-C数据的评估。我们提出的新分析方法能够更好地利用Pore-C的长片段优势,显著提升有效数据率,并为研究人员提供更丰富的基因组互作信息。
往期精彩:
干货指南|Direct RNA测序m6A修饰结果一本通:结果解析,数据分析挖掘,实验验证
IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集
文章解读|异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史
贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。
贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。
贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。
贝纳课堂-Nanopore交流QQ群:992789813(本群已满)
贝纳课堂-Nanopore交流QQ群2:923119248
生物信息交流QQ群:198746977
客服QQ:3277498363