背景导读
益母草(Leonurus)属主要由多年生草本植物组成,广泛分布于亚洲和欧洲,并在美洲和非洲本土化化。益母草(Leonurus cardiaca)是一种在西方草药中长期使用的植物,主要用于治疗妇科疾病、焦虑症和心脏病。由于其与中草药益母花(L. japonicus)的植物学关系,以及超出中草药传统适应症的广泛医学适应症,益母草是一种很有前途的药用资源,在中国具有良好的驯化和栽培价值。遗传多样性是进化变化的基础,包括单核苷酸多态性(SNPs)、插入缺失(Indel)和结构变异(SV)等变异类型。数百万年来,确定性和随机性,包括自然选择、适应和遗传漂变,创造了丰富的遗传多样性,产生了相当大的基因型和表型多样性。它也是物种、种群和个体多样性的基础。对于许多驯化的药用植物来说,野生植物的驯化可能会减少遗传多样性,从而导致遗传瓶颈。同时,野生植物的驯化受到人为选择期的影响,以满足人类的需求,这可能导致遗传多样性的降低。因此,了解益母草的种群结构和遗传多样性是进行更深入调查的重要一步,以避免未来潜在的严重遗传问题。叶绿体是植物光合作用和其他生化途径的关键细胞器,叶绿体基因组通常具有典型的四分体结构,包括一个小的单拷贝区(SSC)和一个大的单拷贝区域(LSC),它们由一对反向重复区(IRa、IRb)分隔。叶绿体基因组由于其罕见的重组频率、较小的基因组、母系遗传和中等的进化速度,在不同的科学领域得到了广泛的应用,例如分子系统发育、分歧时间计算、种群多样性估计等,为遗传多样性研究提供更多信息。到目前为止,还没有关于益母草叶绿体基因组的报道。由于它是中国驯化的一种新的潜在资源,因此选择使用叶绿体基因组来推断益母草种群的差异。在这项研究中,作者通过Illumina高通量测序对来自世界各地不同地理位置的22份益母草叶绿体基因组进行了测序,并比较了异质性差异,如SNPs、插入/缺失、简单重复序列和密码子使用。
论文ID
Heterogeneous Genetic Diversity Estimation of a Promising Domestication Medicinal Motherwort Leonurus Cardiaca Based on Chloroplast Genome Resources
杂志:Frontiers in Genetics 影响因子:IF=4.772 发表时间:2021
材料方法
1、研究对象
从中国、美国和欧洲共收集了22份益母草种质,以代表该物种的分布。凭证标本存放在中国药物研究所(CMMI)植物标本室。
2、研究方法
使用Illumina HiSeq XTen平台PE150测序,通过SPAdes软件组装叶绿体基因组,以益母花(NC038062)作为参考进行注释,OrganellarGenomeDRAW (OGDRAW)软件绘制基因组圈图。进一步分析SNP、插入缺失,变异热点检测,密码子偏好性,重复序列和SSR以及系统发育进化树和网络图。
研究目的
1、确定益母草的叶绿体基因组,并评估该物种的种内变异;
2、为益母草的遗传资源(包括SNPs、SSR和indels)提供基础数据,用于遗传多样性评估,以指导未来的驯化和保护工作。
研究结果
1、益母草属叶绿体基因组结构特征
本研究获得的22个益母草完整叶绿体基因组(序列GenBank登录号MZ274149-MZ274170),基因组大小在1,51236bp-1,51831bp之间。所有基因组结构都非常保守,与大多数被子植物一样,包含典型的四分体结构,具有一对IR区(25644–25653 bp)、LSC区(82294–82888 bp)和SSC区(17651–17655 bp)。所有序列的GC含量在LSC、SSC和IR区域一致,分别占36.6%、32.2%和43.4%。IR区域GC含量较高的主要原因是IR区域包含四个高GC含量的rRNA基因。研究获得22份益母草种质构成8个单倍型。叶绿体基因组含有114个不同的功能基因,包括80个蛋白质编码基因、30个tRNA基因和4个rRNA基因。18个基因在IR区域重复(图1,表1);此外,共有84个基因位于LSC,其中包括62个蛋白质编码基因和22个tRNA基因;而SSC区域包含11个蛋白编码基因和1个tRNA。14个基因(atpF、rpoC1、ndhB、petB、rpl2、ndhA、rps12、rps16、trnA-UGC、trnI-GAU、trnK-UUU、trnL-UAA、trnG-GCC和trnV-UAC)包含一个内含子,两个基因(clpP和ycf3)包含两个内含子。trnK-UUU基因具有最大的内含子。rps12基因是一个反式剪接基因,5′端位于LSC区,3′端位于IR区。研究比较了八个单倍型叶绿体基因组的边界区域和相邻基因,以分析连接区域的扩张和收缩。IR/SC边界的扩张和收缩在单倍型中表现出完全相同的结构。IRb/LSC连接(JLB)发生在rps19基因, rps19在IRb区具有34bp的延伸。ndhF基因与IRb/SSC连接(JSB)重叠20bp。ycf1基因在IRa/SSC连接点(JSA)和JSB中交叉了1084bp。此外,IRa/LSC连接(JLA)仅以1 bp的长度延伸到trnH-GUG基因中。
表1 益母草属植物叶绿体基因组的基本信息
2、SNP、Indel和变异热点鉴定
对22个益母草属植物叶绿体序列进行比对,一共获得225个SNP(IR区域仅计数一次),包括83个单变异位点(singleton variable sites)和142个简约信息位点(parsimony informative sites),形成8个单倍型,单倍型多态性为0.732(表2)。三个不同部分的核苷酸多样性在0.00014(IR区)到0.00101(SSC区)之间,总体核苷酸多样性为0.00042。所有SNPs位点中,114个位于基因间区,99个位于外显子,只有12个位于内含子区域。总体SNP密度为1.48/kb(LSC为1.82/kb,SSC为3.62/kb,0.39/kb)(表3)。99个编码区SNP分布在34个不同的基因中,这意味着一些基因包含两个以上的SNP,55个是非同义SNP。34个基因中有10个含有3个以上的SNP(ycf1、rpoC2、ndhF、ndhH、matK、ndhD、psbA、ndhA、psaB和ycf2)(表4)。在这10个高度可变的叶绿体编码基因中,ycf1最多含有21个SNP,17个非同义SNP和4个同义SNP,其次是rpoC2中的9个SNP和ndhF中的8个SNP。此外,编码基因的最高SNP密度出现在ndhH中,每kb含有5.08个SNP。SNPs的数量和密度可能表明,对于这22个益母草属植物,编码基因ycf1和ndhH存在显著差异。对SNP模式中,93个转换(Ts)和132个转换(Tv)的进行了计数,总的Ts:Tv比率为0.705,表明它有利于转换(图2)。高频率SNP为C到T和G到A,从T到A的和A到T的突变频率最低。
表2 22份益母草属种质的单倍型多样性和突变
表3 在L. cardaca叶绿体基因组中检测到的突变汇总表4 L. cardaca叶绿体蛋白编码基因高度单核苷酸多态性
图2 八种益母草属叶绿体基因组单倍型之间的核苷酸替代模式。
研究检测到49个indels(IR区域仅计数一次),其中大多数出现在基因间隔区(39),其次是内含子(7),只有三个出现在外显子中(LSC中40个,IR区域中4个,SSC中5个);总indel密度为0.32/kb(图3,表3)。三个外显子位于matK、rpoC1和trnV(UAC)。间隔区域ndhF-rpl32含有indel数量最高(四个),其次是rbcL-accD和trnT(GGU)-psbD(三个)。Indels大小在1至546bp之间。最大的indel是发生在Hap1的trnC(GCA)-petN中的缺失,第二大indel是出现在Hap2的petN-psbM中的52bp插入。
图3 益母草叶绿体基因组中的indels分析。
(A) indel类型和位置的计数。(B) 叶绿体基因组中Indels的数量和大小。
通过DNAsp测量核苷酸多样性(Pi,π),以确定整个叶绿体基因组中22份益母草材料中的多样性热点区域(图4)。Pi在0-0.0054之间,而平均Pi极低,仅约为0.0005。只有三个区域超过0.04。trnT(GGU)-psbD的间隔区具有最高的Pi值(Pi=0.0054),其次是ycf1(Pi=0.0011,大多数突变位于外显子)和clpP(Pi=0.0040,大多数突变位于内含子)。
图4 所有益母草材料叶绿体基因组的多态性滑动窗分析。
3、密码子使用频率分析
本研究使用了8个单倍型益母草叶绿体基因组的蛋白质编码基因的来进一步分析密码子的使用情况和相对同义密码子使用(RSCU)。密码子的使用显示出与L. cardaca高度相似的结果。其中,异亮氨酸是密码子编码的最丰富的氨基酸,从971-972,而“UAG”编码的终止密码子是最不丰富的,只有20个。RSCU热图(图5)显示,红色表示较高的RSCU值,蓝色表示较低的RSCU。RSCU值推断密码子AGC和UUA分别代表最低和最高RSCU值,密码子AUG和UGG没有偏差(RSCU=1)。同时,密码子的数量在较高(RSCU>1)和较低(RSCU<1)部分都相等。31个频率较高的密码子中,除UUG外,密码子均以嘌呤A或U结尾。此外,对于所有密码子,在第三密码子位置明显偏向于嘌呤。
图5 八种益母草单倍型的所有蛋白编码基因的RSCU值。
4、重复序列和简单序列重复
作者在八个单倍型基因组的正向、回文和反向区域共检测到317个重复,长度为30-52bp,在每个单倍型中检测到39-41个重复(图6)。具体而言,正向重复的数量为19-20,略少于回文重复(20),并且只有一个反向重复存在于Haps 1、2和8中。然而,任何单倍型中都没有互补重复。根据长度范围,作者将重复序列分为六组,如图6B、C所示。最常见的重复是30 bp,84.5%的重复限于30-39 bp。此外,在8个单倍型中检测到24-27个串联重复。通过GMATA分析共检测到271个SSR,单、二、三、四和五核苷酸重复。SSR的数量从28(Hap 2)到38(Hap 4)不等。在这些SSR中,基因间区中有175个,外显子中有53个,内含子中有43个(LSC中有212个,SSC中有59个,但IR区域中没有)(图6A)。大多数SSR为单核苷酸重复(70.5%),大多数为A或T重复(19-28)。二核苷酸和四核苷酸数量几乎相等,分别为11.4%和11.1%。三核苷酸和五核苷酸重复数量最低,分别为5.9和1.1%(图6D,E)。在所有单倍型中,22个SSR位点具有多态性,14个在间隔区,7个在内含子,只有一个位于外显子。atpF的内含子包含三个多态位点(表5)。
图6 益母草叶绿体基因组八个单倍型中SSR的类型和分布。
(A) SSR在不同区域(LSC、SSC、IR和间隔子、外显子、内含子)的数量,(B)重复序列长度的数量,(C)四种重复类型的数量,(D)不同重复类别类型中识别的SSR的数量,(E)GMATA检测到的SSR重复类型数量。
表5 通过对八种单倍型的叶绿体基因组的比较分析鉴定出SSR
5、根据系统发育和网络分析益母草属种间关系
基于益母草的22个完整叶绿体基因组进行了median-joining网络和系统发育分析。ML分析强烈表明22个材料之间存在显著差异,形成了四个分支。此外,来自西藏的样本单独形成了一个分支,分支I和IV都来自美国采集的样本。然而,分支III包含来自美国和欧洲不同分布的样本(图7)。总之,网络结果在很大程度上与系统发育结果相当。此外,4个分支由8个单倍型聚集,而Hap 1包含11个材料,Hap 2包含4个材料,而Hap5包含2个材料。单倍型之间显示出强烈的种内变异(图8)。
图7 利用最大似然法(ML)22份益母草种质完整叶绿体基因组序列构建的系统发育树。
图8 基于22份益母草叶绿体基因组序列的median-joining网络。
结论
植物明确的遗传多样性和变异性不仅是发现新的药用资源的先决条件,也是物种种质资源保护和创新的基础。本研究通过22个益母草属植物叶绿体基因组揭示了益母草的遗传多样性。系统发育和网络分析表明,22份材料形成了4个分支,部分与地理分布有关。总之,本研究突出了叶绿体基因组在种内多样性评估中的优势,并为促进药用植物益母草的保护和驯化提供了新的工具。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有五年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位100余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾100篇,发表在《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《peerJ》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。