摘要
薰衣草是一种重要的芳香植物,其应用范围广泛,涵盖香水、香水、化妆品、芳香疗法和水疗领域。除了美学和感官应用外,这种植物还具有天然草药的药用价值,并可用于家庭清洁产品。虽然该物种有大量基因组数据,包括质体和核基因组,但研究人员尚未对其线粒体基因组进行表征。这种知识上的差距阻碍了对基因组组织及其进化意义的更深入理解。通过本研究,我们成功组装并注释了L. angustifolia的线粒体基因组。该基因组包含61个基因,其中包括34个蛋白质编码基因,24个转移RNA基因和3个核糖体RNA基因。鉴定到一个插入到线粒体基因组中的叶绿体序列,该序列长10,645 bp,占线粒体基因组大小的2.94%。在这些插入序列中,有7个完整的tRNA基因(trnH-GUG、trnW-CCA、trnD-GUC、trnS-GGA、trnN-GUU、trnT-GGU、trnP-UGG)和4个完整的叶绿体来源的蛋白质编码基因(psbA、rps15、petL、petG)。其他发现包括88个微卫星、15个串联重复、74个回文重复和87个正向长重复。RNA编辑分析发现细胞色素c氧化酶基因中编辑位点数量的增加。利用来自23种唇形目物种的保守蛋白质编码基因进行系统发育分析,产生了具有一致拓扑结构的树,并得到了高置信度值的支持。本研究对当前线粒体基因组资源的分析揭示了其典型的环状基因组结构。线粒体基因组中发现最初来自叶绿体基因组的序列,这表明细胞器之间发生了水平基因转移。
背景
薰衣草是一种原产于地中海的开花植物,属于唇形科,薄荷属。薰衣草属包括大约41个物种。薰衣草因其芳香精油特性而引起了广泛的商业关注。这种精油广泛应用于化妆品、家庭清洁和香水等行业。薰衣草提取物已被证实具有众多健康益处,这可能归因于其丰富的植物化学成分,包括萜类化合物和黄酮类化合物。从历史上看,薰衣草油具有抗抑郁、镇静、抗菌和抗炎作用。此外,临床前研究表明,这些来自薰衣草的植物化学提取物具有良好的抗糖尿病、抗癌和抗诱变作用。随着长读测序和染色体构象捕获技术的出现,薰衣草的研究已进入基因组时代。这一进步带来了高质量的基因组组装,促进了唇形科的进化研究和萜类生物合成途径不可或缺基因的鉴定。虽然薰衣草的叶绿体基因组之前已被报道,但其线粒体基因组仍有待阐明并等待组装。已有大量研究阐明薰衣草在唇形科中的系统发育位置。利用叶绿体序列进行的系统发育分析将薰衣草定位在荆芥亚科中,更确切地说,它属于金合欢族。
线粒体通常被描述为细胞的“动力工厂,在细胞能量产生中起着核心作用,主要产生三磷酸腺苷(ATP),这是许多细胞过程的主要能量货币。由于线粒体基因组的复杂性,植物基因组的组装面临着巨大的挑战。这些线粒体可以呈现多种构象,包括sigma状、碎片状、分支状、环状、线性或多染色体结构。大量广泛的重复序列可以作为分子间或分子内重组的潜在位置,从而产生各种替代构象。各种形式的重组已被证明是能够改变植物线粒体基因组结构的机制,包括同源基因组内重组、同源重组、分子间或分子内重组以及重复介导的重组。改变植物线粒体基因组结构的重组事件的频率因植物种类和所涉及的重组类型而异。
随着长读长测序技术的出现,组装植物线粒体基因组变得更加容易。因此,长读长测序(无论是单独使用还是与短读长结合使用)促进了多个物种的线粒体基因组组装。鉴于线粒体基因组的复杂性,研究细胞器之间的基因转移事件,可以充分了解植物线粒体基因组的进化动态。本研究旨在通过组装薰衣草的线粒体基因组、探索细胞器内基因转移机制以及唇形科的系统发育,更全面地描绘出薰衣草的基因组和进化景观。
薰衣草(唇形科)的线粒体基因组揭示了其基因组结构和细胞器之间的基因转移
The mitochondrial genome of Lavandula angustifolia Mill. (Lamiaceae) sheds light on its genome structure and gene transfer between organelles
时间:2024 杂志:BMC Genomics 影响因子:3.5 分区:2/2区
研究方法
1、测序数据检索:长读PacBio测序数据取自美国国家生物技术与信息中心(NCBI)。数据以NCBI项目号PRJNA762277(SRR12615113、SRR12615133、SRR12615114、SRR12615115)公开提供。PacBio读段使用Canu进行错误校正,而短读段使用fastp进行质量调整。
2、组装和注释:采用了迭代映射方法,使用GetOrganelle进行线粒体组装,参数设置如下:-F embplant_mt,-k 57,77,97,117,127。为确保组装准确性,我们使用Bandage以交互方式可视化重叠群配置。然后通过连接重叠群手动验证和改进组装质量,从而得到完全环化的线粒体基因组。为了解决重复序列区域的复杂性,我们采用了PacBio长读数据,将线粒体长读映射回组装的基因组上。此外,为了验证组装的线粒体基因组的完整性,利用长读数据提取线粒体特异性读段。然后使用Canu组装器独立组装这些提取的读段。随后,将得到的组装体与之前获得的初始线粒体基因组组装体进行比对,从而确保组装的线粒体基因组的可靠性和准确性。之后,使用GeSeq在线工具( https://chlorobox.mpimp-golm.mpg.de/ ) 对最终组装体进行注释。注释是通过基于同源性的方法进行的,取注释良好的物种线粒体基因组,例如烟草(NC_006581)、拟南芥(NC_037304)、油菜(NC_008285) 、大豆(NC_020455) 和丹参(NC_023209.1)。在GeSeq工具箱中,通过BLAST搜索对rRNA、tRNA和DNA 进行注释,对核苷酸序列采用85%的阈值同一性,对蛋白质序列采用50%的阈值同一性。为了确保tRNA注释的准确性,使用tRNAscan-SE作为二次验证方法。随后,对注释的基因组组装进行手动检查和改进。使用Organellar Genome DRAW (OGDRAW)实现了基因组图谱的可视化。
3、叶绿体衍生的 DNA 整合到线粒体基因组分析中:鉴于已知遗传物质在细胞区室或细胞器之间转移,我们探究了DNA从叶绿体到线粒体的潜在迁移。为此,使用参考叶绿体基因组NC_029370.1执行BLAST搜索,遵循以下标准:E值 ≤ 1e − 10,匹配率 ≥ 70%,比对长度 ≥ 40。
4、重复序列分析:使用MISA-web程序( https://webblast.ipk-gatersleben.de/misa/ )识别简单重复序列(SSR)。利用REPuter在线工具( https://bibiserv.cebitec.uni-bielefeld.de/reputer )对回文、互补、正向和反向序列进行检测。CENSOR工具( https://www.girinst.org/censor/index.php )检测转座因子。
5、RNA编辑和密码子使用偏好分析:RNA编辑是真核生物(包括植物)中普遍观察到的过程。这种转录后修饰涉及转录本编码区内碱基的添加、删除或转换等变化。因此,RNA编辑对于物种的进化至关重要,是适应性进化的决定因素。我们利用PREP-mt包预测每个物种的RNA编辑位点,应用阈值0.8相对同义密码子使用率(RSCU) 是用来量化基因内同义密码子使用偏向的指标。该指标可揭示对同一种氨基酸的特定密码子的优先选择。RSCU将给定密码子的观测频率与其预期频率进行对比,假设所有同义密码子的使用一致。该指标在分子生物学和基因组学中得到了广泛的关注,是探索不同生物体基因进化、表达和优化的重要工具。RSCU值接近1表示中性偏向。MEGA工具分析相对同义密码子使用偏好。
6、序列共线性分析:为了探索近亲物种(包括半枝莲、广藿香、筋骨草、锯叶黄连、荆条、华山松和丹参)之间的保守线粒体区域,使用BLASTN进行了成对比对。仅保留超过500 bp的匹配,以评估所研究的线粒体基因组中的同源模式。随后利用TBTools对多个同源图进行可视化。
7、系统发育分析:使用来自23个物种完整线粒体基因组的16个保守基因(atp1、atp4、ccmB、ccmC、ccmFC、ccmFN、cob、cox2、cox3、matR、nad1、nad2、nad3、nad5、nad6和rps13)进行系统发育分析,该数据集包括唇形科的11个物种、列当科的4个物种、香蒲科、车前科和苦苣苔科各2个物种。木樨科的两个物种(女贞子和桂花)被指定为外群。使用MAFFT对保守基因进行多序列比对 (MSA) 。随后,使用trimAl细化MSA文件中保守基因对齐较差的区域,并使用PhyloSuite将文件连接起来。最终的连接数据矩阵用于使用IQ-TREE构建最大似然系统发育树。
主要研究结果
1、薰衣草的基因组特征以及从质体到线粒体基因组的DNA迁移
薰衣草线粒体基因组长355,345 bp,其核苷酸组成为27.55%腺嘌呤 (A)、27.31%胸腺嘧啶(T)、22.45%胞嘧啶(C)和22.69%鸟嘌呤(G)。线粒体基因组注释(图 1)共鉴定出61个基因:34个蛋白质编码基因、24个tRNA 基因和3个rRNA基因。值得注意的是,典型的线粒体rRNA基因rrn5、rrn18和rrn26与植物线粒体基因组中常见的基因一致。在蛋白质编码基因中,rps10和nad4是重复的(表 1)。有趣的是,NADH脱氢酶基因nad1、nad2和nad5的外显子数量最多(n = 5)。通过将叶绿体序列与组装的线粒体基因组比对,我们在薰衣草线粒体基因组中鉴定24个源自质体序列的片段(图 2)。这些插入的质体片段总10,645 bp,占整个线粒体基因组的2.94%。在基因水平上,我们观察到7个tRNA(trnH-GUG、trnW-CCA、trnD-GUC、trnS-GGA、trnN-GUU、trnT-GGU、trnP-UGG)和4个叶绿体天然蛋白质编码基因(psbA、rps15、petL、petG )的完整序列(图 2)。这一发现表明,叶绿体和线粒体基因组之间存在水平基因转移。
图1. 薰衣草线粒体基因组图谱
图2. 薰衣草叶绿体和线粒体基因组的同源序列
2、重复序列分析
在薰衣草线粒体基因组中,我们共鉴定出88个SSR(图 3)。四聚体类型最为丰富(n = 34),其次是二聚体(n = 20)、三聚体(n = 14)和单体(n = 14)类型。在薰衣草线粒体基因组中检测到15个串联重复(图 3)。对于分散重复,我们鉴定出14个回文重复87个正向重复。回文重复的大小从30到3,675 bp不等,而正向重复介于30和202 bp之间。转座子检测揭示了各种转座因子的存在,包括DNA转座子(157个片段)和逆转录转座子,227个LTR片段和97个非LTR片段。LTR是主要的转座子类型,占线粒体基因组大小的4.60%,其次是DNA转座子(3.14%)和非LTR类型(1.69%)。
图3. 薰衣草线粒体基因组中重复序列含量。( a )简单序列重复(SSR)的基序长度分布。( b )在所研究的线粒体基因组中发现的串联和分散重复序列的数量。
3、RNA编辑位点
预测了34个蛋白质编码基因中分布的364 RNA编辑位点(图 4)。值得注意的是,核糖体蛋白S3(rps3)基因没有显示任何编辑位点,而细胞色素c生物合成 B(ccmB)基因显示出最多的位点。在已确定的编辑位点中,35.44%(129)位于密码子的第一个位置,主要的64.56%(235)对应于密码子的第二个碱基。值得注意的是,每个编辑位点都表现出胞苷到尿苷(C到U)的转换,这是在植物细胞器中观察到的主要转换类型。最常见的氨基酸转变是从丝氨酸到亮氨酸,占21.43%(78个位点)。其次是脯氨酸转化为亮氨酸,为17.03%(62个位点),丝氨酸转化为苯丙氨酸,为 14.83%(54个位点)。
图4. 在33个薰衣草线粒体蛋白质编码基因中检测到的RNA编辑位点数量
4、密码子使用偏好性分析
薰衣草线粒体基因组大多数氨基酸密码子都存在密码子使用偏向性,起始密码子AUG(RSCU = 1)和色氨酸(UUG)(RSCU = 1)是显著的例外。有趣的是,终止密码子UAA的RSCU值最高,为1.73。例如,GCU密码子的RSCU值为1.61,主要被选择用于编码丙氨酸。
5、保守区分析
对薰衣草、半枝莲、刺蕊草、匍匐筋骨草、三对节、蔓荆、凉粉草和丹参等8个物种进行了同源性检测。从多重同质图(图6)中可以明显看出,薰衣草与其近缘种之间存在几个同源共线区块。例如,排在前两位的是唇形科成员蔓荆(10,098 bp)和凉粉草(6,079 bp。)值得注意的是,这些保守区相对较短,表明这些物种之间的线粒体基因组结构缺乏保守性。此外,在这些序列中观察到的明显缺口强调了它们对于薰衣草线粒体基因组的独特性,表明它们与所检查的其他物种缺乏同源性。总的来说,我们的研究结果表明薰衣草的线粒体基因组相对于其密切相关的对应物存在明显的基因组重排。
图6. 薰衣草与唇形科近缘种的序列共线性图。红色曲线区域表示倒置序列区域,灰色区域表示同源序列区域。
6、系统发育分析
为了根据线粒体基因组推断薰衣草在唇形目物种中的系统发育定位,我们选取了其他22个物种,包括缙云黄芩Scutellaria tsinyunensis (MW553042.1)、岩藿香Scutellaria franchetiana (NC_065026.1)、半枝莲Scutellaria barbata (NC_065025.1)、刺蕊草Pogostemon heyneanus (MK728874.1)、匍匐筋骨草Ajuga reptans (NC_023103.1)、筋骨草Ajuga ciliata (MT075725_6.1)、三对节Rotheca serrata (NC_049064.1)、蔓荆Vitex trifolia (NC_065806.1)、凉粉草Plastoma chinense (OP537517.1)、丹参Salvia miltiorrhiza (NC_023209. 1)、野菰Aeginetia indica (MW851294.1)、广东假野菰Christisonia kwangtungensis (OM219025_7.1)、火焰草Castilleja paramensis (NC_031806.1)、地黄Rehmannia glutinosa (OM397952.1)、旋刺草Genlisea tuberosa (OK274069.1)、大肾叶狸藻Utricularia reniformis (NC_034982.1)、雪杉花Aragoa abietina (OK514) 181 .1)、Aragoa cleefii (OK514182.1)、旋蒴苣苔Boea hygrometrica (NC_016741.1)、喉凸苣苔Haberlea rhodopensis (MH757117.1)、小叶女贞Ligustrum quihoui (MN723864.1) 和桂花Osmanthus fragans (NC_060346.1)构建最大似然树(图 7)。树的拓扑结构与被子植物系统发育组最近提出的分类结果一致,强调了基于保守基因的树推断的可靠性。正如预期的那样,薰衣草与唇形科物种组成一个亚枝,包括凉粉草和丹参。
图7. 无根最大似然系统发育树显示了薰衣草在唇形目物种中的位置。
结论
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。