摘要
单倍型分型是基因组分析中的一个关键步骤,旨在识别每条染色体上特定的遗传变异组合。实现染色体水平的基因组分型是一项极具挑战性的任务,特别是在具有大且复杂基因组的生物中。为应对这一挑战,我们开发了一套基于配子细胞的稳健分型pipeline,包括植物精细胞分离的实验室操作、短短长测序以及生成染色体水平分型的生物信息学工作流程。该生物信息学流程适用于植物和其他精细胞,例如哺乳动物的精细胞。
我们的pipeline能够确保每个精细胞的高质量单核苷酸多态性(SNP)检测,并随后构建高密度遗传图谱。遗传图谱有助于准确实现染色体水平的基因组分型,能够检测到重组事件,并可用于校正潜在的组装错误。该生物信息学流程运行于Linux系统,大多数步骤可以并行执行,从而加快分析过程。整个流程可以在一天内完成。我们提供了一个基于我们以往研究的实际示例,并将整个生物信息学管道封装为Docker镜像,以确保其易于适应其他研究。
要点
• 该实验方案描述了一种从花粉中分离配子细胞进行植物基因组分型的方法,能够实现染色体水平的分型和重组事件检测。
• 该实验方案无需Hi-C数据或对大量植物群体进行测序即可实现分型。
背景介绍
单倍型由沿染色体的不同基因位点上的等位基因组合构成,是遗传学中的关键单位。单倍型信息在遗传学中具有基础性意义,且有着多种重要应用,例如重建进化或驯化历史、推测缺失基因型以及解析性状变异的遗传基础。例如,对狗及其野生祖先灰狼的单倍型分析表明,相当一部分多位点单倍型可以追溯到中东地区的灰狼,这表明该地区是狗遗传多样性的主要来源。
单倍型多样性分析已揭示了包括番茄、马铃薯、甘薯和向日葵等作物的起源、驯化或适应过程。基因编码序列-单倍型多样性分析揭示了与野生祖先密切相关的地方品种的原始祖先,表明了水稻的多起源模型。此外,单倍型信息可以通过提高基因型推测的准确性来增强全基因组关联研究,尤其是在高连锁不平衡区域。考虑到单倍型包含比单核苷酸多态性(SNP)位点更多的遗传信息,其识别可以促进与复杂性状相关的因果变异的检测。此外,单倍型变异可能导致等位基因特异性事件,例如等位基因特异性表达(ASE)和基因组印记,这些现象广泛存在于各类生物中,并与重要的性状密切相关。单倍型信息的另一个重要应用是辅助单倍型基因组组装。大多数基因组组装方法侧重于构建共识(consensus)基因组,而忽略了单倍型信息;然而,在具有复杂且高度杂合基因组的物种中,仅依赖共识基因组可能导致遗传多样性显著丧失。因此,利用单倍型基因组组装可以增强我们捕获物种内全部遗传资源的能力。
现有的单倍型分型方法已经基于同源一致性(identity-by-descent)、群体中的单倍型频率建模或测序reads发展而来。第一种方法需要已知的家系群体;然而,一些物种(如果树和茶树)缺乏家系信息。第二种方法使用群体中的连锁不平衡和参考单倍型数据集(例如千人基因组计划数据集)进行单倍型分型,并开发了多个基于这一理念的软件,包括IMPUT2和Beagle。然而,这些方法无法处理罕见等位基因,并且IMPUT2和Beagle是为人类开发的,可能不适用于其他物种。基于reads的分型方法利用覆盖至少两个杂合变异的测序reads来确定这些变异的型。这种技术受限于read长度、质量以及计算复杂性。此外,基于群体和reads的分型方法通常无法实现染色体水平的分型,尤其是在具有大型复杂基因组和多倍体的物种中。尽管已经开发了用于处理复杂基因组的新算法,例如整合Hi-C(染色体构象捕获数据)以实现染色体尺度的分型组装,这些方法也存在局限性。例如,与基于家系的分型方法相比,基于Hi-C的分型组装通常具有更高的交换错误率,且无法处理复杂的基因组区域,例如着丝粒区域。一些实验方案为长距离甚至整个染色体的单倍型分型提供了更直接的解决方案,但这些方法需要分离同源染色体,成本高昂且劳动强度大。另一种分型方法是对配子细胞进行测序,配子天然是单倍体的,经过减数分裂的配子是理想的分型材料,已经证明它们是用于分型基因组以及解析减数分裂重组模式和单倍体多样性的强大实验系统。
实验方案的开发
最近开发的一种方法将linked read测序与花粉池结合,利用单个DNA文库在拟南芥中进行重组检测和单倍型分型。此外,越来越多的研究表明配子细胞测序的适用范围不只限于拟南芥,包括最近在玉米和茶树中的研究;例如,Luo等人开发了一种在玉米中分离单个雌配子体并进行基因组测序的方法,从而揭示了玉米中重组的分子机制,而Li等人则开发了一种方法,对来自花粉的三个细胞核和来自四分体的单个小孢子进行测序,以研究单倍体诱导。在我们之前的研究中,我们使用了135份来自茶树优良品种‘福鼎大白’的单个精细胞来对茶树基因组进行分型。这使我们能够构建福鼎大白的高分辨率遗传图谱和重组图谱,揭示了茶树中低重组频率和复杂的亲缘关系,并研究了多种茶树材料中的等位基因特异性表达。鉴于该实验方案在处理复杂的茶树基因组分型中的成功,我们相信此实验方案应适用于广泛的植物物种的单倍型分型和重组分析。尽管我们之前的工作主要集中在植物上,理论上,该管道的生物信息学工作流程也适用于非植物精细胞,例如哺乳动物的精子细胞。
实验方案概述
我们提供了一个用于单个精子测序的单倍型分型的全面的分步骤的实验指南。实验方案概述如图1所示,可分为两个主要部分。第一部分涵盖湿实验室程序,包括精细胞的分离(步骤1-4)、使用多重置换扩增(Multiple Displacement Amplification, MDA)进行全基因组扩增(步骤5)、MDA产物的质量评估(步骤6-8)以及父本材料和精细胞的全基因组测序(步骤9-10)。第二部分涵盖基于单个精子测序的基因组分型和重组检测的生物信息学分析。生物信息学分析的主要步骤包括数据下载和软件安装(步骤11-13)、父本和精细胞短reads的映射和SNP检测(步骤14-19)、SNP分型和遗传图谱构建(步骤20-26)、将scaffold片段整合为伪分子(步骤27)以及重组检测(步骤28)。此外,我们提供了整个协议的Docker镜像,确保其在其他研究中的灵活性和适应性。为了增强可读性,HTML格式的步骤指南可以从GitHub下载。
与其他方法的比较
为了获得染色体水平的基因组和分型信息,通常可以使用一些替代方法,一旦通过先进的纳米孔或PacBio测序达到了contig级别的单倍型分型组装后,便可选择这些方法。除了花粉和配子测序,广泛采用的方法包括基于染色体构象捕获的技术,如Hi-C,以及基于植物群体的测序。
在基于花粉的测序中,主要有两种方法:本文描述的实验方案或利用自动化单细胞测序的方法。虽然本文描述的实验方案需要更多的手动操作,但大多数具有分子生物学专业知识的实验室都可以实施,因为第二代短读长测序(如Illumina)可以通过众多供应商外包。主要的挑战在于配子细胞的收集,这需要诸如微分干涉对比显微镜等技术的专业知识。
已经开发了几种利用配子细胞进行单倍型分型分析的算法,并在杏、马铃薯和梨的单倍型基因组测序中取得了显著成就。虽然这些方法的核心概念与我们的pipeline密切相关,但它们缺乏用户友好的界面,阻碍了它们在其他研究中的适应性。此外,像Hapi和sgcocaller这样的软件专注于基于配子细胞测序的SNP分型,但需要手动分割染色体或序列以加快计算速度,并且难以处理参考基因组中的组装错误区域。相比之下,我们的实验方案提供了一个稳健、灵活且用户友好的pipeline,能够处理组装错误区域,并利用多线程确保在各种研究中的适应性和计算效率。
图1:单倍型分型流程的主要工作流程
每个图展示了分型流程中的重要步骤。步骤1–10展示了单个精细胞的分离和测序文库的构建。步骤11–28表示分型分析流程,并标注了对应的实验步骤编号。步骤11–16中的红色箭头表示在亲本中检测到的纯合SNP,这些SNP应在后续分析中过滤掉。步骤17–19中的红色箭头代表在精细胞中检测到的杂合SNP。步骤20–22中的红色箭头显示了两个已分型的SNP之间的潜在重组(CO)。步骤23–24中的红色框表示可能由参考基因组组装错误导致的错误分型区域。步骤23–24中的Chr1到Chr(n)表示不同的染色体。步骤26–28中的HapA和HapB分别表示两个相位的单倍型。
将当前的配子细胞测序方法与Hi-C及相关方法相比,后者高度依赖于从植物样本中提取高质量材料,以进行DNA交联和深度测序,这取决于植物材料,可能具有挑战性。此外,虽然有多种生物信息学解决方案可以将contig组装成染色体,但其中一些方案已不再得到开发者的积极开发,在处理不均匀的测序文库时可能需要手动调整工作流程。尽管如此,市售的试剂盒依然可用,虽然通常需要大量劳力,但可以由训练有素的分子生物学家使用。在温室或植物生长能力方面,Hi-C测序通常只需要一株植物,这不仅足够,而且是首选,因此在要求上与配子细胞测序相同。
与Hi-C测序相比,基于群体的测序用于生成遗传图谱,需要从杂交衍生出的更大植物种群。基于群体的测序不仅能够生成精确的染色体水平的分型,还可以检测到精确的重组断点。然而,群体分型通常需要数十甚至数百株植物。因此,这些方法需要生成合适的群体,这可能耗时,并且依赖于更大规模的温室或田间种植能力。然而,从技术角度来看,所需的专业知识较少,因为该过程涉及提取中等质量的DNA并进行基于测序的基因分型,通常采用SNP检测或根据所需的分辨率可能采用PCR检测。
图2:单倍型分型和重组检测流程
a、b,Hapi对测试基因组染色体1(a)和染色体2(b)的单倍型分型结果(步骤21-22)。蓝绿色和浅绿色矩形分别表示单倍型A和B。潜在的组装错误区域由红色箭头指示。c,基于遗传图谱,原始参考基因组与重新锚定的参考基因组的比对情况。d,在重新锚定的参考基因组中检测到的重组。a、b和d中的九个精细胞样本相同,样本ID(标记为“QSC.number”)显示在图表上方。重组事件由蓝色箭头指示。
局限性
精细胞测序的分析工作流程依赖于从单一亲本植物收集的花粉的可用性和质量。因此,花粉的可用性和质量是关键因素,并且可能带来挑战,特别是在研究稀有或濒危植物时。由于诸如花粉产量低或不育植物缺乏花粉、有限的开花周期以及获得可行花粉的技术难度等因素,收集足够高质量的花粉样本可能较为困难。
为了生成遗传图谱,亲本植物必须表现出一定程度的杂合性。这种杂合性通过分析亲本两对染色体之间的SNP数据来检测重组事件。通常,异域材料中的杂合性较高,但在许多农业用材料中也是如此。因此,精细胞测序已用于茶树和梨树品种。或者,也可以使用F1杂种,如番茄或玉米中的研究所示。
需要注意的是,重组抑制区域可能会对分析产生影响。这些区域缺乏重组信号,导致难以排序/构建contig。然而,重组抑制区域对识别重组冷区具有价值,为基因组中的遗传景观和重组模式提供了见解。
实验设计
花粉细胞的分离
该实验方案旨在基于精细胞的单倍体特性,对杂合物种进行单倍型分型分析。采集目标物种的新鲜花朵是该过程中最关键的步骤之一(步骤1)。过早或过晚采集花朵都会降低花粉的活性,进而影响精细胞的收集。例如,茶树的最佳采花时间应在早晨干燥的天气下进行,且在花朵完全开放之前采集。不同植物物种的花结构和开花时间各异,因此在分离花粉细胞之前,应先确定采集花朵的最佳时间。
花粉萌发是分离花粉细胞前必须进行的关键步骤(步骤1–2)。不同物种或品种的最适花粉萌发溶液各不相同,查阅文献或进行预实验对于确定合适的溶液是必要的。此外,添加到花粉溶液中的无菌ddH2O比例应提前优化,以便破裂花粉管并释放精细胞(步骤3)。
所需的花粉细胞数量取决于研究的具体目的(步骤4)。使用更多的精细胞可以提高遗传标记的密度,从而增强检测参考基因组中组装错误区域的能力。此外,高密度的遗传图谱可以以更高的分辨率将contig排列为伪分子。例如,10-20个花粉细胞即可通过分型SNP检测等位基因特异性事件。然而,若要构建遗传图谱并将contig锚定到伪分子上,建议至少收集100个花粉细胞。
在全基因组扩增步骤中,某些精细胞样品可能会失败(步骤5–8)。因此,在构建测序文库之前,测试MDA产物非常重要。我们建议设计至少10个引物,均匀分布在参考基因组上,以确保全基因组扩增的成功。值得注意的是,应使用BLASTN确保引物设计在参考基因组的单拷贝区域。在筛选精子细胞样品之前,引物的特异性和有效性需要使用亲本DNA进行测试。
基因组测序
严格的精细胞SNP检测过滤过程至关重要,因为精细胞中SNP检测的准确性直接影响分型结果(步骤10)。此外,精细胞和亲本样本的测序深度也会影响此流程中分型SNP的准确性和数量。我们建议亲本样本使用至少20×的测序深度,精细胞样本使用至少5×的测序深度。
数据分析
我们生成了一个示例数据集供用户测试该流程(步骤11–28)。所有单个精细胞的测序读长可从figureshare下载。该测试数据集代表了一部分真实的茶树单精子测序数据。我们从茶树品种“DASZ”的基因组组装中提取了跨越1-100 Mb的染色体1和染色体2片段,作为测试基因组(命名为test.genome.fa)。在此数据集中,我们特别选择了37个单精子样本进行分析。我们提供了一个Docker镜像,用于下载和设置此实验方案的测试数据环境。
该流程适用于染色体水平的参考基因组和碎片化的contig级别组装。然而,对于低质量的参考基因组,单倍型分型将更具挑战性。contig级别的参考基因组可能需要更多的精细胞样本来构建高分辨率的遗传图谱。如果分辨率不足,多个contig可能属于同一遗传位点,导致这些contig无法正确排序。我们还在示例数据中提供了一个contig级别的测试基因组(命名为test.contig.fa),用户可以将染色体水平基因组替换为contig级别基因组来测试流程。
最后需要指出,虽然湿实验室程序是为植物设计的,但该实验方案的单倍型分型的生物信息学部分也适用于哺乳动物的精子。
以下为具体实验流程的步骤和细节
预期结果
利用花粉细胞和长读长测序,用户预期可以实现基因组的单倍型分型,包括高质量单倍型基因组的组装、减数分裂重组位点的确定以及基于花粉的重组图谱的生成。基于花粉的重组图谱不仅为校正潜在的组装错误和scaffold构建contig提供了强有力的工具,还能提供染色体级别的分型信息。根据遗传图谱,可以检测到多个组装错误。图2a、b展示了Hapi在示例数据中(步骤21-22)的原始分型结果。我们观察到不同花粉细胞样本中在几乎相同位置频繁发生重组事件。通常,在其他物种中,如人类和玉米,每条染色体在一次减数分裂中发生1到3次重组事件。因此,频繁的重组事件表明参考基因组中可能存在组装错误区域,Hapi会在这些区域随机分配单倍型(图2a、b)。基于遗传图谱,检测到原始参考基因组和重新锚定基因组之间存在大量易位(步骤25-27;图2c)。我们在重新排序的参考基因组中重新识别了重组事件,与原始参考基因组相比,检测到的重组事件较少(图2d)。这些结果表明我们的流程在单倍型分型和重组检测方面优于Hapi。此外,我们的流程也适用于contig级别的参考基因组。基于contig级别基因组的单倍型分型和重组检测结果与染色体水平的基因组相似,但前者的重新锚定长度比后者短(补充图1)。
精确且长距离的分型信息对基因组和生物学研究有极大的帮助,例如基因注释、数量性状位点(QTL)检测和等位基因特异性表达分析。例如,单倍型基因组允许用户识别与两个单倍型之间的结构变异重叠的基因,这对于后续的基因功能分析至关重要。此外,长距离的分型信息对于共祖性(IBD)检测和亲缘关系分析非常有价值,并将有助于理解种群结构。在单花粉细胞的分离和基因分型后,用户可以获得每个花粉细胞的减数分裂重组点,这为了解遗传重组和基因组进化的多个方面提供了见解。例如,重组点的识别和分析可以提供关于重组形成速率、重组热点和干涉现象的见解。这些信息有助于进一步理解影响基因组结构、适应性和物种形成的进化力量。总之,花粉细胞测序将对从事上述多样化生物学问题的研究者非常有用。
Cite this article
Zhang, W., Tariq, A., Jia, X. et al. Plant sperm cell sequencing for genome phasing and determination of meiotic crossover points. Nat Protoc (2024). https://doi.org/10.1038/s41596-024-01063-2