干货指南｜Hi-C辅助组装的实验分析全攻略

学术 2024-11-19 16:45 湖北

点击蓝字关注我们

一、

概述

早期基因组组装仅通过二代测序得到的短读长reads，按照overlap组装出contig序列。随后，基于不同长度的大片段(mate-pair)文库，将原本孤立的contig按序前后连接，得到scaffolds（类似于supercontigs）。无论是contig还是scaffold组装级别，都不能在染色体水平反映基因组的结构，这也意味着解析端粒、着丝粒等复杂区域相当困难。随着多种测序技术的涌现，例如Hi-C、长读长测序、光学图谱等技术，可以实现染色体水平的组装，大幅提高基因组序列的连续性和完整性。

今天带大家了解Hi-C技术及其在基因组辅助组装上的应用！Hi-C全称高通量染色体构象捕获（high-throughput chromosome conformation capture）技术，是一种研究全基因组三维构象及分析染色质片段相互作用的技术，可以帮助我们了解基因组内部的互作关系。具体而言，染色体内的相互作用大于染色体之间的相互作用，近距离的相互作用大于远距离的相互作用，应用到基因组组装过程中，我们可以对组装的片段进行聚类和排序，并且定向到正确的位置，也就是染色体挂载，将基因组组装进一步提升到染色体级别。

二、

Hi-C实验流程

Hi-C文库制备流程主要包括甲醛交联、细胞裂解、内切酶酶切、末端修复及生物素标记、片段连接、解交联、捕获带生物素标记的片段、文库构建及质检等步骤。Hi-C文库质量受多种因素影响，如细胞裂解剧烈程度、细胞裂解期间的蛋白酶抑制剂含量等，Hi-C文库质量直接影响后续的有效数据产出。

图1 Hi-C总体实验流程图 (Lieberman-Aiden et al., 2009）

通过构建高质量的Hi-C测序文库，我们可以获得高准确率的染色质互作信息，为后续的染色体挂载分析提供有力基础。

三、

数据质控

数据过滤

Hi-C技术使用的是二代测序（与之一争长短的是结合三代测序的染色质构像捕获技术Pore-C，详情请戳：T2T 基因组2.0 — 基因组组装到达终点了吗？），原始测序数据（raw data）中包含了低质量序列和接头序列，为了保证分析结果的可靠性，我们可以使用fastp等软件对Hi-C原始测序数据进行过滤，得到FASTQ格式的clean data后进行后续分析。

比对参考基因组

经二代双端测序和数据过滤后，我们可以分别获得clean data的reads1和reads2，然后将reads1和reads2分别与基因组草图（contig级别基因组）进行单端比对。由Hi-C测序产生的两条reads不一定都能够比对到参考基因组。例如，一条reads能够比对到参考基因组，而另一条reads无法比对到基因组，这种情况被称为Singleton；或者在植物基因组中，由于重复序列较多，可能会出现一条reads可以比对到两个或者多个参考基因组位置，这种情况被称为Multiple mapped reads；另外，也可能由于基因组组装不完整，存在许多gaps，导致两条序列都无法比对到参考基因组，这种情况被归类为Unmapped reads。这三种类型的reads都不适用于后续的分析。只有当两条 reads 均能唯一比对到基因组草图上时，才能表明这些reads所在的 DNA 片段存在互作关系，这两条reads被称作Unique Mapped Paired-end Reads。

图2 测序reads无法比对到参考基因组的三种情况（https://www.biodiscover.com/reaseach/727773.html）

有效Hi-C数据

Unique mapped paired-end reads并非全部来自于空间上相邻但在线性上不相邻的酶切片段。因此，测序产生的Hi-C互作数据存在较高的假阳性率，正确筛选出包含有效信息的Hi-C数据是确保后续分析结果准确性和可靠性的关键。

我们可以进一步将Hi-C测序数据中双端数据均能唯一比对到基因组草图上的数据，分为有效Hi-C数据（Valid Interaction Pairs）和无效Hi-C数据（Invalid Interaction Pairs）。只有当两个reads能够分别比对到两个不同的酶切片段上，并且实际片段大小符合理论的片段大小时，才会将这些数据归类为有效Hi-C数据。

无效Hi-C数据通常包括以下几种类型：

Re-ligation：有一个reads中也包含了酶切位点，且刚好没有被酶切。

Self circle：自环，即首尾都有(不包括接头)酶切位点。

DanglingEnd：边缘悬挂，同时比对到同一个酶切片段；引起的原因有：1.磁珠洗脱不合格2.生物素误入。

Dumped：能比对到基因组的两个酶切片段中，但是观测到的片段大小与理论的片段大小不一致。引起的原因有：1.酶切反应时间过长，或者盐离子浓度和种类不合适，导致酶切位置异常2.酶切片段被DNA外切酶降解。

Adapter Polluted：至少一条reads被接头序列污染。

图3 有效Hi-C数据和无效Hi-C数据（https://www.biodiscover.com/reaseach/727773.html）

四、

文库评估标准

一个合格的Hi-C文库对染色体挂载的准确率至关重要，只有有效Hi-C数据才能为后续辅助基因组组装提供有效信息，因而其在测序数据中的比例是衡量Hi-C文库质量的重要标准。

有参考基因组

在有参考基因组的情况下，我们可以用下面的两个指标评估Hi-C文库的质量。

Mapped Rate：比对到参考基因组的Hi-C reads/总的Hi-C reads，该比例与基因组质量有关，一般不低于80%;

Valid Rate（Valid Read Pairs/Unique Mapped Read Pairs）：有效Read Pairs占双端唯一比对到基因组的 Read Pairs 的比例，该指标建议40%以上。

无参考基因组

对于没有参考基因组的情况，可以对Hi-C数据进行无参评估，常见的判断标准是酶切位点序列占测序数据的比例，该指标建议10%以上。

总之，Hi-C文库的成功构建和质量优劣直接影响了后续的分析工作。贝纳基因在Hi-C实验平台和分析平台已积累了大量植物、动物（包括哺乳动物、昆虫、水生动物等）以及微生物项目经验。对于常规样品，我们严控样品质量确保文库制备达到高标准；同时，针对一些具有挑战性的样品（例如生长老化、难以获得活体样品、个体过小等），我们会灵活调整建库策略。

最近完成的Hi-C项目统计显示，贝纳基因建库成功率接近100%，且文库质量各项指标表现优异：在近200个样本中，valid rate平均达到92.8%（通常认为在valid rate达到40%时，即可较好地满足辅助组装要求）。

图4 贝纳基因近期Hi-C实例统计

表1 贝纳基因Hi-C疑难样本有效数据展示

五、

染色体挂载

挂载流程

根据前面测序得到的Hi-C互作关系，我们可以确定有效数据中不同Contig间关联的紧密程度，从而对Contig进行聚类。例如我们可以使用软件ALLHIC通过agglomerative hierarchical clustering（自下而上的层次聚类算法），将Contig序列聚类为不同的染色体群，接着对每一个染色体群内部的Contig进行定序和定向，再通过软件3D-DNA和jucier将Contig两两之间的互作关系转化为指定的二进制文件（即.hic文件）。最后可以通过软件Juciebox对已经定序和定向的Contig进行手动定序与定向（生成.review.assembly文件)。Contig序列之间未知的序列使用N来填补，得到最终的染色体级别基因组序列。

这部分详细的流程可以参考Baylor College of Medicine & Rice University Aiden团队的Genome Assembly Cookbook，以上软件也出自于他们团队。

图5 染色体挂载流程示意图 (Burton et al., 2013)

挂载结果评估

互作热图评估是最常见和最直观的评估方式。通过将组装的染色体切割成等长Bin（特定长度的染色体片段），以两个Bin之间支持的Valid Paired-end Reads数量作为两个Bin之间互作的强度信号，构建热图。热图坐标表示各染色体的所有Bin，每个点的颜色代表相应Bin与Bin之间的互作强度，颜色越深代表互作强度越强。

从下面的热图示例可以看出，在每一染色体分组内部可以看出位于对角线位置交互的强度要高于非对角线的位置，说明Hi-C组装的染色体结果中邻近的序列间（对角线位置）交互强度高，而非邻近的序列之间（非对角线位置）的交互信号强度弱，与辅助组装的原理“对角线强互作，沿对角线垂线方向互作逐渐减弱”一致，证明挂载效果较好。

图6 Hi-C热图示例（项目实例）

另外，我们还可以通过染色体挂载率，即挂载的contig长度/全部contig长度来评估染色体挂载结果，通常情况下，Hi-C的挂载率可以达到90%左右。高挂载率意味着更多的基因组序列被准确地定位到染色体上，这对于理解基因组的结构和功能至关重要。

贝纳基因已完成多种类型样本的基因组组装和Hi-C挂载，下表列举了近期部分项目的挂载情况，期待与您合作！

表2 贝纳基因近期Hi-C挂载项目展示

参考文献：

Lieberman-Aiden, Erez, et al. "Comprehensive mapping of long-range interactions reveals folding principles of the human genome." science 326.5950 (2009): 289-293.

Burton, Joshua N., et al. "Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions." Nature biotechnology 31.12 (2013): 1119-1125.

往期精彩：

干货指南｜Direct RNA测序m6A修饰结果一本通：结果解析，数据分析挖掘，实验验证

干货指南｜参考基因组选择指南

干货指南｜基因组Survey分析全攻略

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

文献解读｜首个反刍动物绵羊T2T参考基因组发布

IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集

文章解读｜异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史

ONT测序质量值重大突破 | 中位值达Q28（准确性达到99.84%）

项目文章｜青岛百合首个完整线粒体基因组揭示了其独特的多染色体结构

Nature正刊！十二倍体甘蔗基因组发布！

武汉贝纳科技有限公司(下称"贝纳基因")成立于2012年，总部位于武汉高农生物园，是一家专注于Nanopore测序、二代测序和生物信息分析技术开发和应用的国家高新技术企业。核心团队拥有多年高通量测序、Nanopore测序和生物信息分析经验，在Nature和Science系列杂志发表多篇学术论文，博士、硕士学历员工占企业员工总数的72%。拥有自主测序平台（国内首批引进Nanopore PromethION平台）和专业的生物信息分析团队。

贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组（菊花基因组）的组装和后续分析工作。提出并推动千种本草基因组计划，并构建药用植物基因组数据库，推动药材研究的发展。

贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析；完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。

贝纳基因开发了基于Nanopore平台的微生物检测体系，自主开发的数据库涵盖现已正式发表的所有微生物基因组，大型测序仪单机一次运行可以产生7.2T数据，小型便携式测序系统可用于临床检测和野外作业。

服务类型

网站：www.benagen.com

地址：武汉东湖新技术开发区高新大道888号高农生物园总部B区12C栋

电话：027-62435310

手机：15337161420

邮箱：service@benagen.com

贝纳课堂-Nanopore交流QQ群：992789813（本群已满）

贝纳课堂-Nanopore交流QQ群2：923119248

生物信息交流QQ群：198746977

客服QQ：3277498363

http://mp.weixin.qq.com/s?__biz=MzA3NDI2MzgzOQ==&mid=2650478381&idx=1&sn=f2149068e797ce9c43821c80a7a008e4

贝纳基因

贝纳基因拥有Nanopore测序平台，专业提供基因组、转录组、宏基因组、重测序、蛋白组和代谢组等服务。贝纳基因愿景是“多场景测序应用方案引领者”。

最新文章

项目文章｜ONT全长转录组+简单验证，牦牛生长发育机制研究轻松拿捏高分文章

品质性状研究利器：植物多组学解决方案

文献解读｜高质量现代大豆品种泛基因组和重测序揭示重要性状结构变异

Pore-C数据评估新方法与新指标：揭开多维基因组互作的奥秘

干货指南｜Hi-C辅助组装的实验分析全攻略

文献解读｜单倍型基因组和重测序揭示现代月季起源和育种历史

文献解读｜首个棉花T2T参考基因组揭示着丝粒进化和折叠胚胎形成的分子调控与演化机制

项目文章｜蘑菇病原真菌的基因组测序揭示其致病机制

项目文章｜转录组学和代谢组学联合揭示微塑料胁迫对葡萄生长的影响机制

干货指南｜Direct RNA测序m6A修饰结果一本通：结果解析，数据分析挖掘，实验验证

一文畅谈，何为“泛”基因组——泛基因组的样本选择

Science重磅：首个人类剪接体结构图谱揭示RNA剪接调控未解之谜

NG项目文章｜基因组所周永锋团队建立葡萄全基因组选择育种体系

干货指南｜参考基因组选择指南

CGM第449期：SynDiv：基于群体基因组的染色体共线性分析工具

一次测序，同时检测4种RNA修饰，贝纳基因SAR20 Direct RNA 测序强势上线

Plant Communications 项目文章 | 辣椒“遵辣1号”T2T基因组揭示转座子驱动的近着丝粒区域扩张和进化

干货指南｜基因组Survey分析全攻略

文献解读｜学龄前儿童肠道菌群与行为学之间的特异性关联

ACS高分项目文章｜山东大学发表黏细菌5-甲基吡嗪酮的生物合成及生理功能研究

干货指南｜一文教会你轻松掌握可变剪切结果的解读与运用

项目文章 | T2T项目文章再添佳作！河南中医药大学和山东省林草种质资源中心分别发表鲁山冬凌草、玫瑰T2T基因组研究成果

扬帆起航，共创未来——香港启航基因科技有限公司开业庆典圆满落幕

文献解读｜最全面的猪基因组结构变异图谱

干货指南｜什么！RNA质检又不合格！转录组测序取样建议

NC解读｜ONT和PacBio全长转录组测序揭示阿尔茨海默病模型中内嗅皮层的差异性剪接

基因科技新地标｜香港启航基因科技盛大开业，共绘基因科技蓝图！

文献解读｜现存和灭绝的兔耳袋狸基因组，改善了澳大利亚特有的有袋动物的保护工作

文献解读｜首个反刍动物绵羊T2T参考基因组发布

Nature子刊项目文章｜氧气通过维持EGLN1催化的IRF3脯氨酸羟化来增强抗病毒的先天免疫

Nature子刊项目文章｜T2T基因组及多组学分析阐明月季茶香的生物合成和释放机制

CGM第442期：鸡产蛋量性状的分子调控机制

风华正茂，锦绣河山｜贝纳基因国庆小长假放假通知

国产纳米孔你知道哪些？重磅综述:全球纳米孔测序发展十周年

突破性研究｜首个植物Nanopore全长全谱—228个辣椒全长转录组数据库

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT重测序

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 ONT超长测序

CGM第438期：亚基因组间的同源置换对芸薹属多倍体作物驯化的贡献

贝纳基因ONT超高精度长读长测序SAR Q27系列产品—— SAR20宏基因组

喜报 | ONT宏基因组三连发！

贝纳基因ONT超高精度长读长测序SAR Q27系列产品——SAR25扩增子16S/18S/ITS

会议邀请 | CGM方法技术专题第二期

ONT宏基因组项目文章Microbiome | 揭示微生物宏代谢的确定性动态规律：一项对厌氧生物降解的多组学研究

开学季产品介绍——TAIL Iso-seq

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长lncRNA测序

开学季产品介绍——Nanopore全长转录组

贝纳基因ONT超精度测序SAR Q20系列产品——SAR20 全长定量转录组

花好月圆人团圆｜贝纳基因中秋节放假通知

开学季产品介绍——全长lncRNA测序

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉