Mata-Sucre Y et al. (2024) Oligo-barcode illuminates holocentric karyotype evolution in Rhynchospora (Cyperaceae). Front. Plant Sci. 15:1330927.
doi: 10.3389/fpls.2024.1330927
摘要
寡核苷酸(Oligo)荧光原位杂交(FISH)是一种有效的植物染色体识别方法。龙眼(Dimocarpus longan Lour., 2n = 2x = 30)作为一种重要的商业水果,其细胞遗传学研究受限于缺乏基础染色体标记。本研究开发了一种经济高效的寡核苷酸系统,用于区分龙眼的染色体。在该系统中,每个合成的寡核苷酸包含两条特异的染色体oligo序列,这两条oligo序列跨越超过200 kb的距离,并通过结合嵌套引物的PCR灵活扩增方法进行探针标记。使用这些寡核苷酸条形码能够标记36个染色体区域,从而能够清晰地区分龙眼和荔枝(Litchi chinensis Sonn., 2n = 2x = 30)的所有15条染色体。基于对各条染色体的识别,我们构建了核型图,并检测到龙眼和荔枝中涉及35S核糖体RNA基因(35S rDNA)的基因组组装错误。寡核苷酸条形码的开发为推动龙眼、荔枝及其相关物种的细胞遗传学研究提供了巨大潜力。此外,这种经济高效的合成系统可用于其他物种新寡核苷酸文库的开发。
背景介绍
非同源的染色体的识别与核型分析对于细胞学研究至关重要,因为它已被用于展示物种及其近缘种内的进化变化。在植物中,确定染色体核型通常通过染色体带型或荧光原位杂交(FISH)来识别单独的染色体。相比于染色体带型,FISH中的DNA探针在揭示植物中重要的细胞遗传学信息方面显示出了更高的效力。传统上,基因组DNA、重复序列和细菌人工染色体(BAC)文库一直是用于FISH染色体识别的主要探针类型。基因组DNA探针通常用于区分不同谱系中的染色体,但它们无法检测到个别染色体。尽管重复序列和BAC克隆被广泛用于染色体识别,但它们的使用受到了一些限制,包括产生不稳定的信号。重复序列在亲缘关系较近的物种中经常信号会变化,而BAC克隆的信号模式可能会产生干扰。因此,这些探针无法在所有亲缘关系较近的物种中产生一致的信号模式。
随着生物信息学和基因组学的发展,合成寡核苷酸技术应运而生,提供了用于在已测序的基因组物种中设计染色体可靠的FISH探针。寡核苷酸探针来源于基因组序列,由单拷贝或低拷贝序列组成,与传统FISH探针相比,显著降低了信号噪音。这些探针已在各种植物遗传学和基因组学研究中得到广泛应用。此外,寡核苷酸探针在物种分化达500万至800万年(Mya),甚至1200万年的远缘物种中也表现出良好的效果。
龙眼(Dimocarpus longan Lour.)和荔枝(Litchi chinensis Sonn.)是中国南方和东南亚重要的热带水果。由于其优越的果实外观、香气和口感,这两种水果被誉为“珍贵的健康水果”,在中国已有千年的种植历史。龙眼和荔枝同属于无患子科(Sapindaceae),具有很近的遗传关系,并展现出相似的表型特征。它们常见于类似的生态环境中。然而,由于缺乏细胞遗传学标记,限制了对荔枝、龙眼及无患子科其他相关水果之间关系的研究。因此,基于染色体识别之目的,建立标准的龙眼及其近缘种的核型分析框架一直未能实现。
本研究开发了一种经济高效的方法,利用从龙眼基因组中提取的oligo,通过FISH生成独特的染色体杂交图谱。该方法通过将每个50nt的寡核苷酸序列配对,生成单个100nt的混合oligo序列。通过寡核苷酸的多重PCR扩增,成功产生了36个特异的染色体区域信号,能够识别龙眼和荔枝的所有15条染色体。此外,研究揭示了35S核糖体RNA基因(35S rDNA)在个别染色体上的精确位置,并识别出龙眼和荔枝基因组中35S rDNA位点组装位置错误。这种经济高效的寡核苷酸条形码系统显著降低了oligo合成成本,相比之前的寡核苷酸池(oligo pool)合成成本减少了一半,为不同植物物种的细胞遗传学研究提供了宝贵的资源。
结果
龙眼oligo barcode探针的开发
为了创建染色体特异性探针,使用Chorus2软件,在龙眼基因组的所有15条染色体中鉴定了共计1,023,364条oligo(每条长度为50 nt)(图1)。龙眼基因组被划分为1 Mb的片段,以去除重复的oligo,确保每个片段包含不超过2,500条染色体特异性的oligo(图1a)。这使得每个条形码区域内的oligo密度为0.98 - 2.5个oligo / per kb(图2和表S1)。随后,预选了50,272个红色探针和41,278个绿色探针,用于识别龙眼染色体(表S5)。最终,选择了包含所有15条染色体的36个染色体区域,使得通过一次FISH实验能够识别这些染色体。
图1. 经济高效的oligo系统设计示意图
每个最终合成的寡核苷酸由两个寡核苷酸(寡核苷酸A和寡核苷酸B)、一个正向引物(引物A)和两个反向引物(引物B和引物C)组成。(A) oligo文库过滤过程。寡核苷酸文库的密度为每千碱基2.5个寡核苷酸。(B) 寡核苷酸A和B的选择示意图。对于FISH实验,间隔小于200 kb的寡核苷酸对被过滤。(C) 引物引入和PCR扩增的方案。引物A和引物C用于扩增整个绿色和红色探针寡核苷酸库(C1)。引物A和引物B用于扩增单条染色体或片段(C2)。引物B和引物B'分别对应引物的不同部分。
图2. 龙眼基因组中barcode oligo的特征
最外圈(A)表示龙眼的15条拟染色体,以百万碱基(Mb)为单位刻度。最内圈(B)突出显示了寡核苷酸条形码位点的选择。热图(C)表示寡核苷酸数量的分布情况,而折线图(D)展示了这些寡核苷酸在基因组中的密度分布。(E)中包含的示意图显示了barcode oligo探针的设计,红色和绿色分别表示后续FISH分析中的信号。在1 Mb窗口内确定寡核苷酸数量和密度,以便进行全面分析。
经济高效的oligo barcode探针的合成
为了降低合成oligo pool的成本,我们将每对选定的oligo序列(长度为50个核苷酸(nt))合并为一个100 nt的单一序列(图1B)。这些合并后的探针被合成到一个单一的FISH实验中。在这个经济高效的oligo pool中,我们确保了在指定染色体上oligo DNA序列之间至少相隔200 kb,以防止邻近的寡核苷酸(寡核苷酸A和寡核苷酸B)之间在杂交时产生竞争(图1B)。另外,为了标记探针并识别龙眼基因组中的特定染色体区域和特定染色体,我们加入了三种不同的引物(图1C):(a)引物A和引物B分别用于扩增红色和绿色探针的oligo pool 。这些标记的36个oligo探针库,实验一次FISH实验识别龙眼的全部15条染色体;(b)引物A和引物C用于扩增1至15号染色体的特异信号。barcode oligo-FISH探针已被证明能够有效识别非同源染色体。合成池的每个单位由来源于龙眼基因组的100 nt DNA序列和三种扩增引物组成(表S2)。因此,构建了一个包含91,550条寡核苷酸的oligo pool,并用三种不同的引物进行了染色体识标记。
为了评估经济高效的寡核苷酸合成系统在FISH中的表现,我们使用荧光标记的引物对龙眼14号和15号染色体(分别命名为LoChr14和LoChr15)的特异探针进行了扩增(图3;表S2)。这些探针使用Cy3(红色)标记LoChr14,使用FAM(绿色)标记LoChr15。值得注意的是,这些探针的应用在龙眼的中期染色体上产生了明显的荧光信号,如图3所示。与我们的假设一致,LoChr14和LoChr15探针各自在其相应的染色体上产生了两对信号(图3)。这一结果表明我们合成的寡核苷酸在龙眼染色体识别中的能力。随后,我们使用了两组正向引物(引物A)和21组反向引物(引物C)来扩增所有目标区域,如表S2所列。每个探针在相应的染色体上都产生了清晰且特异的信号,证实了所设计的杂交模式(图S2)。
图3. 龙眼染色体特异性探针的FISH定位
(A) 使用LoChr14探针(绿色)显示14号染色体,使用LoChr15探针(红色)显示15号染色体。(B) 从A中的复合图像中分离出LoChr15信号,突出显示15号染色体。(C) 从A中的复合图像中分离出LoChr14信号,突出显示14号染色体。比例尺 = 10 μm。
龙眼、荔枝和红毛丹的oligo barcode探针比较核型分析
本研究探讨了龙眼品种Shixia、荔枝品种Ziniangxi及红毛丹(N. lappaceum L.)品种Baoyan7之间的核型差异。利用特异性引物,我们扩增了红色和绿色寡核苷酸探针,这些探针对15条染色体进行了区分,并与预定的模式相一致(图2;表S2)。使用这些探针进行的FISH实验在龙眼品种Shixia的中期染色体上产生了36个清晰的信号,这些信号与15条拟分子染色体上的预期位置相对应(图4A-C)。随后,我们将最初从龙眼中提取的寡核苷酸条形码探针应用于荔枝的中期染色体。探针产生了清晰的信号,15条拟分子染色体表现出与龙眼相似的模式(图5A)。值得注意的是,龙眼中LoChr2探针片段的空间分布(LoChr2.1至LoChr2.2的物理距离/LoChr2.2至LoChr2.3的物理距离)显示出一个明显较低的比例(P < 0.001,Student's t检验),与荔枝相比(图5B)。这一发现表明,荔枝的3号染色体可能经历了片段倒位或转座元件(TEs)的扩张,导致其产生核型的差异(图5C)。
接下来,我们量化了染色体的相对长度,并评估了龙眼和荔枝染色体比较的相关系数。相关系数变化较大,范围从-0.81到0.56。特别是针对LoChr2、LoChr3、LoChr5、LoChr10、LoChr13和LoChr14的特异性探针表现出负相关性,表明两物种在染色体结构上存在差异(表1)。值得注意的是,LoChr2探针表现出了最明显的进化分化。此外,我们对两物种假定的部分同源染色体中的TE特性进行了比较分析(图S3A和S3B)。该分析显示出相对染色体长度与TEs分布模式之间存在正相关性(R = 0.14)(图S3C)。
此外,我们对红毛丹中期细胞的检查显示,使用寡核苷酸条形码探针未检测到信号(图S4)。这种信号的缺失可能归因于红毛丹与龙眼和荔枝之间的明显的进化分歧。这表明基于龙眼基因组设计的探针可能不足以在红毛丹染色体上产生有效的杂交信号。
图4. 龙眼和荔枝物种的染色体特异性barcode oligo探针的FISH分析
(A-C):在龙眼品种Shixia中,展示了染色体特异性barcode oligo探针在有丝分裂中期细胞上的FISH定位结果。原始复合图像(A)之后是红色信号的数字分离图像(B),代表LoChr-R通道,绿色信号(C)代表LoChr-G通道。(D-F):在荔枝品种Zininagxi的有丝分裂中期细胞上展示了类似的FISH定位结果。复合图像(D)之后是红色信号的数字分离图像(E),代表LoChr-R,绿色信号(F),代表LoChr-G。比例尺 = 10 μm。
图5. 基于oligo的龙眼和荔枝核型比较分析
(A) FISH标记的染色体(如图4所示)已被提取以进行详细分析。(B-C) 该部分展示了龙眼和荔枝中染色体片段LoChr2.1-LoChr2.2和LoChr2.2-LoChr2.3之间物理距离比的比较。统计显著性通过双尾t检验确定,未进行多重比较调整,P值表示如下:**P < 0.01,***P < 0.005,****P < 0.001。
表1 龙眼和荔枝的有丝分裂中期染色体长度和臂比
a 数字1到15对应于图2E中的信号模式。
b 染色体的命名遵循各自基因组组装的参考。
c 相对长度计算公式为:100 ×(每条染色体的长度 / 所有染色体的总长度)。
d 臂比通过每条染色体的长臂长度除以短臂长度来确定。
整合分子细胞遗传学与生物信息学以重建系统发育关系
为了验证细胞遗传学条形码模式的发现,我们通过将龙眼寡核苷酸DNA序列映射到荔枝和红毛丹的基因组上进行了比较基因组分析(图6A;表S4)。在91,550条寡核苷酸DNA序列中,37,211条(40.65%)成功与荔枝基因组对齐,而1,842条序列(4.95%)被发现位于非同源染色体上(图6A;表S5)。值得注意的是,龙眼染色体片段LoChr2.1、LoChr2.2和LoChr2.3分别对应于荔枝基因组的LyChr3上0.3-1.0 Mb、13.7-14.5 Mb和21.8-23.0 Mb的位置(图6A和B)。然而,FISH分析表明LoChr2.2和LoChr2.3片段分别位于着丝粒和端着丝粒区域(图5C和6B),这提示可能存在基因组组装错误。此外,红毛丹基因组的较低映射率(27.13%,对应24,836条序列)未产生明显的FISH信号,这表明其可能与龙眼有更远的系统发育关系或序列比对存在困难(表S4和S5)。
系统发育树对于准确估算物种分化时间和描绘植物物种之间的关系至关重要。尽管之前对龙眼与荔枝、荔枝与红毛丹之间的分化时间进行了研究,但这三种物种之间的关系及其分化时间尚未明确。在本研究中,我们利用单拷贝直系同源蛋白序列构建了一个系统发育树。我们的研究结果表明,龙眼和荔枝与红毛丹的分化发生在大约1360万年前,而龙眼与荔枝的分化则发生在大约1010万年前(图6C)。这些发现表明,源自龙眼的寡核苷酸条形码探针可能在最近1000万年内分化的物种中识别染色体可行。然而,它们的效用在与龙眼分化超过1360万年的物种中可能会受到限制。
图6. oligo序列分析与龙眼基因组进化
(A) 龙眼特异性oligo barcode探针在荔枝基因组中的比对。circos图展示了单倍体基因组的大小(单位:Mb),染色体从0 Mb起点开始索引。每条染色体通过不同颜色区分,每种颜色代表一个独特的染色体组。(B) LoChr2探针的染色体定位比较,通过FISH和基因组比对进行分析。红色和绿色标注分别对应探针的颜色修改。粉色阴影标识了在基因组比对中可能检测到的组装错误区域。(C) 该系统发育树阐明了龙眼、荔枝和红毛丹之间的关系及其大致的分化时间,为它们的进化历史提供了见解。
龙眼和荔枝35S rDNA全基因组比较与FISH定位分析
35S rDNA已被证明是一种可靠的分子标记,用于评估植物的倍性及物种间关系。我们旨在研究龙眼和荔枝基因组中35S rDNA位点的分布。为此,我们在龙眼的中期染色体上使用35S rDNA探针与龙眼特异性寡核苷酸探针结合,进行了FISH分析(图7A-D),并在荔枝中期染色体上进行了类似的分析(图7E-H)。结果显示,龙眼中存在六个明显的35S rDNA位点(图7D),而荔枝中存在十个35S rDNA位点(图7H)。通过共定位分析确定,龙眼的这些位点位于12号、13号和14号染色体上,而荔枝的位点则分布在5号、9号、10号、12号和15号染色体上(图7I)。
图7. 龙眼和荔枝基因组中35S rDNA的FISH比较检测
(A-D) 在龙眼中,使用染色体特异性探针对中期染色体进行了FISH检测,探针分别为LoChr12(红色)、LoChr13(绿色)和LoChr14(绿色),以及35S rDNA探针(黄色),黄色是由于信号重叠而产生。(E-H) 在荔枝中,类似地使用染色体特异性探针进行了FISH检测,探针分别为LoChr10(红色)、LoChr15(红色)和LoChr6(绿色),并且还使用了LoChr13和LoChr14的探针(均为绿色)以及35S rDNA探针(黄色)。请注意,LoChr13和LoChr14的探针标记为绿色,表示颜色相同但可能指示不同的染色体区域。(I) 示意图展示了35S rDNA位点在龙眼和荔枝染色体上的分布位置,突出了它们分布上的差异。比例尺 = 10μm。
我们通过FISH和基因组组装数据对35S rDNA位点进行了比较研究。龙眼基因组中共检测到33个35S rDNA拷贝,具体来说,6个拷贝位于12号染色体短臂末端,而27个拷贝位于13号染色体长臂末端(图8A和E)。这一发现表明龙眼基因组组装中缺少了14号染色体上的35S rDNA位点(如图7I所示)。在荔枝基因组中共发现了27个35S rDNA拷贝,这些拷贝位于3号和9号染色体的短臂,以及8号和10号染色体上。其中最多的18个拷贝位于10号染色体上(图8B和H)。然而,荔枝基因组组装中并未包括5号、10号和12号染色体上的35S rDNA位点(图7I)。此外,我们通过评估FISH信号的强度和范围,确定了35S rDNA簇的大小。龙眼染色体的rDNA簇的大小按LoChr13 > LoChr14 > LoChr12的顺序排列。同样,荔枝染色体则按LyChr15 > LyChr10 > LyChr5 > LyChr12 > LyChr9的顺序排列。这些排名反映了35S rDNA拷贝的相对数量和分布情况(图8 C、D、F和G)。
图8. 使用FISH和基因组组装数据对35S rDNA位点的比较分析
(A) 35S rDNA序列在龙眼基因组中的FISH定位,展示其染色体分布。(B) 35S rDNA序列在荔枝基因组中的FISH定位,显示其不同的染色体定位模式。在龙眼基因组中,(C) 不同染色体之间的FISH信号大小比较和(D) 信号强度比较。(E) 对龙眼染色体上35S rDNA拷贝数的量化,突出显示了不同染色体上拷贝数的差异。在荔枝基因组中,(F) 荔枝染色体之间的FISH信号大小比较和(G) 信号强度比较。(H) 对荔枝染色体上35S rDNA拷贝数的量化,强调了染色体上的分布和拷贝数差异。
讨论
FISH(荧光原位杂交)已成为植物染色体识别的主要方法。在细胞遗传学研究中,精心选择FISH探针具有重要意义。目前,源自已测序基因组而开发设计的寡核苷酸探针已在多种植物物种的细胞遗传学研究中展示了其作为有力工具的价值。寡核苷酸通常用于靶向多个特异性染色体区域(称为“条形码”)或整个染色体(称为“染色体涂染”)进行染色体识别。然而,合成oligo pool的费用可能成为使用寡核苷酸探针的一大障碍,特别是在染色体基数较高的物种中。例如,一组27,000条寡核苷酸可能花费约1,500美元。因此,优化寡核苷酸池的容量至关重要。在本研究中,我们开发了一种将两条DNA序列(每个50 nt)合并为单个100 nt 的oligo的新方法(图1)。这一创新方法使得合成oligo pool的成本降低了一半。
通常,有两种方法可以对寡核苷酸探针进行标记。T7体外转录标记法生成单链寡核苷酸探针,具有较高的特异性。然而,标记单链探针的过程需要多个连续步骤和多种试剂盒的使用,从而增加了其复杂性和成本。第二种方法是PCR扩增直接标记,它生成双链探针,显著提高了FISH信号并降低了成本。在本研究中,我们使用引物A和引物B扩增条形码探针,并使用引物A和引物C扩增特定染色体的探针。这种方法使我们避免了基于PCR扩增的标记探针的额外费用。通过使用多重PCR扩增探针,我们成功识别了所有15条染色体(图4)并区分了各条染色体(图3)。
核型差异的识别有助于更好地理解物种间的进化。传统的FISH探针,如BAC克隆和重复序列,无法用于自交和亲缘关系较近的物种。而寡核苷酸FISH探针近年来已被开发用于大规模植物染色体研究。染色体涂染探针揭示了甘蔗属植物(Saccharum spontaneum)的染色体分裂和进化,其基本染色体数从10减少到8。利用寡核苷酸探针,多个物种中发现了染色体重排现象,如豇豆属、豆科、小麦族等。本研究开发了一种经济高效的寡核苷酸合成系统,用于龙眼和荔枝的染色体识别,能够检测两物种在染色体进化过程中的核型差异(图5)。通过结合从系统发育树推断出的分化时间(图6C),我们证明这些探针能够有效区分在1010万年以内分化的近缘物种。
基因组重复序列的准确性和完整性对于评估基因组组装质量至关重要。尽管技术进步已使得某些植物物种能够实现从端粒到端粒(T2T)的基因组组装,但许多基因组仍然缺乏精确的基因组组装。分子细胞遗传学是识别基因组组装错误的重要工具。该技术通过使用特异性探针检查基因组结构,包括物种倍性和潜在的染色体重组,以促进基因组组装。此外,FISH可以帮助定位未锚定的scaffold或contig。例如,分子细胞遗传学已成功用于解开甘蔗复杂的基因组。Xin等人利用寡核苷酸FISH对与杨树性别染色体相关的所有未锚定序列进行了定位。在本研究中,我们结合了细胞遗传学和基因组学方法,识别了荔枝3号染色体的组装错误(图6B和7I)。在龙眼基因组中,FISH分析表明35S rDNA序列存在于12号、13号和14号染色体上,但在基因组组装中缺少14号染色体上的35S rDNA位点(图7I和8A)。在荔枝基因组中,9号和10号染色体通过细胞学和生物信息学分析被确认为与35S rDNA相关。荔枝10号染色体上检测到的35S rDNA序列数量最多(图8H),这一结果与细胞学观察结果不一致。此外,荔枝基因组中未检测到5号、12号和15号染色体上的35S rDNA序列,表明基因组组装中未覆盖这些35S rDNA位点。
材料与方法
植物材料和染色体制备
本研究使用了龙眼品种Shixia(2n = 2x = 30)、荔枝品种Zininagxi(2n = 2x = 30)和红毛丹品种Baoyan01(2n = 2x = 32)。这些样本来源于中国广东省湛江市的中国热带农业科学院南亚热带作物研究所的龙眼种质资源收集中心。从处于细胞活跃分裂区域的根尖采集样本,并在室温(约25°C)下使用饱和的对二氯苯和α-溴萘溶液处理2小时30分钟,随后在Carnoy固定液(酒精:冰醋酸 = 3:1)中固定。根据已建立的方法制备有丝分裂染色体载片。
oligo文库的开发与合成流程
我们使用Chorus2软件,基于龙眼“HHZ”品种的参考基因组选择了特定的45-nt寡核苷酸,并使用特定参数(--homology 75,--step 5,--length 50)。为了消除潜在的重复序列,我们通过严格的过滤条件(-q 0.1,-p 0.9,-d 25)将ChorusNGSfilter.py和ChorusNGSselect.py脚本应用于荔枝“妃子笑”品种(约66 x coverage)和龙眼“JDB”品种(约50 x coverage)的Illumina短读长序列数据。此外,我们使用滑动窗口法(窗口大小为1 Mb,步长为1 Mb)切除超过每kb 2.5个寡核苷酸的密度阈值的过量寡核苷酸。随后,我们确定了寡核苷酸A和寡核苷酸B之间的基因组距离,仅保留距离大于200 kb的oligo对来构建寡核苷酸文库。每个染色体区域通过独特的引物加以区分,详细信息见表S2和表S3。寡核苷酸文库由CustomArray公司(GenScript-金斯瑞公司,南京,中国)合成,条形码探针使用Python(https://www.python.org/)和Circos(https://circos.ca/software/download/circos/)进行可视化。
探针制备和FISH实验
特定的经济高效的寡核苷酸探针通过之前描述的PCR实验指南进行扩增。在FISH实验中,寡核苷酸探针使用直接标记的Cy3和FAM染料进行标记。甘蔗(Saccharum officinarum L.)的35S rDNA质粒通过nick translation方法,使用Cy3-dUTP6进行标记。FISH实验步骤改良自自先前建立的实验指南。在初次杂交中,有丝分裂染色体载片在65°C下变性90秒,而在随后的杂交中,变性时间减少至30秒。杂交混合物包含70%的甲酰胺、10%的20× SSC缓冲液(pH 7.0)、20%的葡聚糖硫酸盐和每个探针100 ng的量,总体积为每张载片10 μL。然后将混合物预热至90°C保持7分钟后置于冰上。随后,将载片上的有丝分裂染色体自然晾干,并使用DAPI染色并在VectaShield抗荧光淬灭剂(Vector Laboratories,美国)中进行封片。FISH信号通过COSMO™ CMOS相机(Teledyne Princeton Instruments,美国)结合奥林巴斯BX53 LED显微镜(Olympus Corporation,美国)进行捕捉,随后使用Adobe Photoshop CS(Adobe Systems Incorporated,美国)对图像进行处理。
oligo比对分析
使用Burrow-Wheeler Aligner (BWA)工具(https://github.com/lh3/bwa)的mem流程对寡核苷酸序列的条形码集在龙眼、荔枝和红毛丹基因组中进行了比对和比较。基因组被划分为100 kb的窗口,使用Circos软件版本0.69-8(https://github.com/vigsterkr/circos)对比对结果进行可视化。
系统发育与基因家族分析
为红毛丹(Nephelium lappaceum)、龙眼(Dimocarpus longan)、荔枝(Litchi chinensis)、甜橙(Citrus sinensis)、木瓜(Carica papaya)、拟南芥(Arabidopsis thaliana)和可可树(Theobroma cacao)这七种植物构建了系统发育树。通过Orthofinder工具使用参数“-S diamond”鉴定单拷贝直系同源基因。随后,使用RAxML应用“msa”模型构建了最大似然树。共进行1,000次自举重复实验。该最大似然树作为r8s的输入,以计算物种分化时间。使用拟南芥与木瓜(67.9 Mya)以及龙眼与荔枝(10.1 Mya)的分化时间作为校准点。CAFÉ用于鉴定在七个植物基因组中经历扩张或收缩的基因家族,使用参数:-p 0.05 -t 4 -l。上述物种的氨基酸和CDS序列从NCBI数据库(https://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/)获取。
TE(转座元件)注释
本研究结合了基于证据的搜索和ab initio预测方法来鉴定龙眼和荔枝基因组中的转座元件(TEs)。在基于证据的搜索中,两个基因组使用RepeatMasker软件(版本4.0.5)(RepeatMasker主页)与Repbase数据库(Repbase - GIRI (girinst.org))进行比对。为了进行ab initio预测,使用RepeatModeler(open-1.0.8)(RepeatModeler下载页面 (repeatmasker.org))构建了一致性序列库,参数为“-engine ncbi”。
染色体相对长度和相关系数
使用已建立的方法测定了染色体相对长度和长臂短臂比值。每个物种选取了10个完整的中期细胞,用于测量龙眼和荔枝的相对染色体长度和臂比。使用ImageJ软件(ImageJ)进行染色体测量。相关系数采用Pearson相关系数计算,使用SciPy.stats.pearsonr()函数进行计算,具体细节见SciPy v1.14.0手册(pearsonr — SciPy v1.14.0 Manual)。
35S rDNA的序列结构和系统发育关系分析
为了鉴定龙眼和荔枝基因组中的35S rDNA单元,我们使用BLASTN基因组筛选方法,采用以下序列作为查询模板:
Cite
Zehuai Yu, Yiying Qi, Yuxuan Wei, Gui Zhuang, Yihan Li, Baiyu Wang, Sehrish Akbar, Yi Xu, Xiuting Hua, Qiutao Xu, Zuhu Deng, Jisen Zhang, Yongji Huang, Fan Yu, Jiannan Zhou, A cost-effective oligo-based barcode system for chromosome identification in longan and lychee, Horticulture Research, 2024;, uhae278,
https://doi.org/10.1093/hr/uhae278