摘要
分析宽叶仙女木(蔷薇科)叶绿体基因组中的密码子使用偏好性
Analysis of Codon Usage Bias in Chloroplast Genomes of Dryas octopetala var. asiatica (Rosaceae)
时间:2024 杂志:genes 影响因子:2.8 分区:2/3区
研究方法
1、宽叶仙女木(Dryas octopetala var. asiatica)叶绿体基因组的测序
宽叶仙女木(D. octopetala var. asiatica)的叶片是从中国吉林省的长白山采集的,采用标准植物采集方法,标本已存放于中国科学院昆明植物研究所的标本馆。使用改良的CTAB方法从硅胶干燥的叶片中提取基因组DNA,并按照制造商的操作手册在Illumina NovaSeq PE150平台(Illumina, Inc., San Diego, CA, USA)上进行测序。该物种的叶绿体基因组的组装和注释按照之前描述的方法进行。宽叶仙女木的注释叶绿体基因组信息已提交至NCBI GenBank数据库,登录号为OQ420424。
2、密码子使用特征分析
根据注释信息,从宽叶仙女木的叶绿体基因组中提取编码蛋白序列(CDSs)。根据以下标准移除基因的CDS进行分析:(1)CDS中包含终止密码子的基因(即假基因);(2)在叶绿体基因组中重复的基因(即IR区域中的重复基因);(3)基因序列长度小于300 bp。从叶绿体基因组中选择剩余的CDSs进行后续分析。
使用CodonW 1.4.2软件计算GC1、GC2和GC3含量的出现频率以及平均GC(GCall)碱基含量。密码子使用偏好通常通过相对同义密码子使用(RSCU)和有效密码子数(ENC)进行评估,使用CodonW 1.4.2软件进行分析。ENC提供了密码子偏好强度的指示,值范围在20到61之间,其中ENC值≤35表明基因中存在显著的密码子偏好。相反,较高的ENC值则表示密码子使用偏好较弱。RSCU值的计算用于评估基因间密码子使用的偏好,通过比较同义密码子的观察频率与其预期频率。其计算公式如下:
Xij表示编码第j种氨基酸的密码子i的频率,而ni指的是编码第i种氨基酸的密码子数量。在没有密码子使用偏好的情况下,特定密码子的RSCU值为1。对于某个特定密码子,RSCU值大于1则表明该密码子的使用频率相对较高。
3、密码子使用偏好的来源分析
中性图用于分析突变压力和自然选择对密码子使用的影响。以GC3作为x坐标,GC1和GC2的平均值(GC12)作为y坐标绘制回归线。当回归曲线的斜率接近0时,表明自然选择在塑造密码子使用中起着关键作用;而当斜率接近1时,意味着GC密码子在第1、2和3位置的碱基组成相似,密码子偏好主要受到突变的影响。
配对规则2(PR2)偏差图分析用于评估自然选择和突变压力对第三密码子位置的影响。计算每个基因第三密码子位置的四种碱基A、T、C和G的组成,以获得GC偏差[G3/(G3 + C3)]和AU偏差[A3/(A3 + T3)]。通过将AU偏差与GC偏差绘图,展示基因中嘌呤(A和G)与嘧啶(C和T)含量之间的相关性。图中的中心点代表平衡状态(A = T,C = G),此时两个坐标均为0.5。基因位点距离该中心点的距离和方向表示其偏离PR2的程度。当更多基因聚集在标准曲线附近时,表明密码子使用偏好可能完全是由突变引起的,而偏离曲线则表明自然选择在密码子使用中发挥了更强的作用。
ENC反映了密码子的分散程度,广泛用作测量密码子偏好的指标。ENC图以ENC值为y轴,GC3为x轴生成。这是一个二维散点图,包括表示预期值的参考线。通过分析各种功能基因的实际ENC值与预期值之间的距离,我们可以观察密码子偏好与不同功能基因之间的关系。当散点接近参考线时,表明密码子偏好主要受到突变的影响,而更大的距离则表明自然选择的影响更强。本研究中使用的标准曲线是通过方程ENCexp = 2 + GC3s + 29/[GC3s² + (1 − GC3s)²]获得的,该方程表示预期的ENC值。
4、最优密码子的识别
符合标准的53个CDS根据其ENC值进行排序。排名的前5%和后5%被选中,分别建立高表达基因(HEG)库和低表达基因(LEG)库。随后,计算高表达和低表达库的RSCU值,并确定高表达库与低表达库之间的差异,记为△RSCU。在基因库中,ΔRSCU > 0.08的密码子被识别为高表达优势密码子。最优密码子通过结合ΔRSCU > 0.08和RSCU > 1的密码子来确定,将高表达优势密码子与高频密码子结合。
主要研究结果
1、蛋白编码基因的注释和分析
宽叶仙女木的完整叶绿体基因组是基于高通量测序数据组装的。在该物种的叶绿体基因组中共注释了84个蛋白编码基因(PCGs)。通过过滤掉序列长度小于300 bp的基因、重复基因和假基因后,选择了53个PCGs进行密码子分析。这些基因主要分为光合作用、自我复制和其他功能组三大类(表1)。其中,8个基因(petB、petD、atpF、ndhA、ndhB、rpoC、rpl2和rpl16)含有一个内含子,其余基因都是编码序列(表1)。
表1 宽叶仙女木叶绿体基因功能分类
2、密码子使用偏好分析
本研究主要通过分析GC含量、有效密码子数(ENC)和相对同义密码子使用(RSCU)来评估密码子偏好。在宽叶仙女木叶绿体基因组中,53个基因的GC含量(GCall)范围为29.4%到44.1%,平均为38.08%(图1)。进一步分析这些基因中密码子的三个位置(GC1、GC2和GC3)的GC含量,GC1范围为34.47%到57.77%,GC2为27.39%到56.12%,GC3为21.43%到36.78%(表2)。平均而言,这三个位置的GC含量分别为46.80%、39.43%和28.03%(图1)。
此外,密码子第三位置四种核苷酸的频率如下:U(T)3s (35.19~59.49%) > A3s (29.76~56.25%) > G3s (7.66~26.15%) > C3s (9.00~25.00%)。U(T)和A的表达水平高于G和C(表S1)。这些结果表明,四种碱基在密码子的三个位置上分布不均匀,整体偏好A/U(T)碱基。值得注意的是,在密码子第三个核苷酸位置观察到较低的GC含量,表明在第三密码子位置存在偏向A或U(T)的偏好。
53个基因的ENC值范围为33.14到57.39,平均值为47.20(图1)。较高的ENC值表示密码子偏好较弱,而ENC值≤35则表明基因具有显著的密码子偏好。因此,宽叶仙女木表现出较弱的密码子偏好。此外,RSCU值分析显示CUU是最常见的密码子(RSCU = 2.02),而CUC是最不常见的(RSCU = 0.36)(表2)。有31个高频密码子的RSCU值大于1,主要以A/U结尾,而RSCU值小于1的密码子主要以G/C结尾(图1)。总体而言,这些结果表明,宽叶仙女木的cp基因组富含A/U碱基,并表现出对以A/U结尾的密码子的偏好。
我们的研究深入探讨了GCall与GC1、GC2和GC3之间的相关性。结果显示,GCall与所有三个位置的GC含量(GC1、GC2和GC3)之间存在强正相关(表3)。具体而言,GC1与GC2之间观察到非常显著的相关性,而GC1与GC3之间则存在显著相关性(表3)。另一方面,GC2与GC3之间的相关性不显著(表3)。这些发现表明,第一个密码子位置的碱基组成与第二个位置的相似性高于与第三个位置的相似性,第二个和第三个位置之间的碱基组成存在明显差异。此外,ENC与GCall和GC1之间未显示相关性(p < 0.05)。然而,ENC与GC2含量呈显著负相关,与GC3含量呈非常显著的正相关(表3)。此外,密码子的大小与GC1、GC2、GC3、GCall或ENC之间没有任何相关性。这些结果强调密码子的GC含量不随密码子的大小而变化。此外,密码子第一位置的GC组成与第二和第三位置的GC组成相关,而第三位置的GC组成与第二位置的GC含量没有任何关系。
表3 宽叶仙女木叶绿体基因中密码子参数的相关性分析
3、密码子使用偏好来源分析
中 性图用于检查GC12和GC3之间的关系,以评估突变和自然选择对密码子偏好的影响。结果表明,GC12的分布范围为0.3-0.6,而GC3的范围为0.2到0.4(图2)。皮尔逊相关分析显示,GC12和GC3之间存在较弱的相关性,所有编码基因的回归系数(R²)为0.039(图2)。此外,大多数基因位于对角线的上方,表明相关系数值偏离1。这些结果暗示,在宽叶仙女木叶绿体基因组中,自然选择对密码子偏好的影响大于突变。
图2 宽叶仙女木叶绿体密码子的中性图分析。斜率曲线显示GC12等于GC3。不同的编码基因用蓝色标记。
通过PR2图进一步研究了突变和选择压力对基因密码子使用偏好的影响。分析结果显示,53个基因在四个区域的分布不均,大多数基因与0.5的中心区域相距较远,只有少数基因靠近中心(图3)。这一观察结果表明,自然选择可能在影响这些基因密码子的第三个碱基的利用上发挥了重要作用。此外,大多数密码子碱基的A3/(A3 + T3)比率低于0.5,而超过一半的基因密码子的G3/(G3 + C3)比率则超过0.5(图3)。这些发现揭示了密码子碱基使用频率,特别是第三个密码子碱基,更倾向于T(U)而非A,以及G而非C。总体而言,宽叶仙女木叶绿体基因的密码子使用模式也受到突变等其他因素的影响,而不仅仅是自然选择。
图3 宽叶仙女木叶绿体密码子的PR2偏差分析。基因根据其在第三个密码子位置的GC偏差 [G3/(G3 + C3)] 和AU偏差 [A3/(A3 + U3)] 进行绘制。
为了评估宽叶仙女木叶绿体基因中的密码子使用偏好,我们计算了ENC值并检查了其频率分布。我们的结果显示,ENC值范围从−0.09到0.29,其中23个基因(43%)的ENC值低于0.05(图4)。通过分析ENC图,我们观察到大多数基因位于标准曲线以下,而少数基因则散布在曲线附近,表明基因间存在多样的密码子偏好。预期与实际ENC值分布之间的差异表明,自然选择在塑造干宽叶仙女木叶绿体基因的密码子偏好方面发挥了重要作用。
图4 宽叶仙女木叶绿体密码子的ENC图分析。、曲线显示了在随机密码子使用假设下ENC值与GC3S之间的关系。不同的编码基因用蓝色标记。
4、最优密码子的识别
在本研究中,通过分析高表达和低表达基因中的ΔRSCU值来识别最优密码子。在高表达基因中发现总共有23个密码子的ΔRSCU值超过0.08。结合31个高频密码子(表2),确定其中6个密码子为最优密码子,包括UCA、CCU、GCU、AAU、GAU和GGU(表4)。值得注意的是,六个最优密码子中有五个以U结尾,一个以A结尾,这与RSCU结果一致。
表4 宽叶仙女木叶绿体基因组中的最优密码子
讨论
同义密码子使用偏好是各种生物基因组中的一种常见现象。密码子使用频率可能在物种之间甚至同一物种内的基因之间存在差异。尽管密码子第三个碱基的同义突变不会改变氨基酸,但它们在决定氨基酸类型方面起着重要作用。因此,GC3通常被用作密码子偏好的关键指标。我们的结果表明,宽叶仙女木的叶绿体基因组平均GC含量为38.08%,表明偏好以A/U(T)结尾的密码子。这种模式也见于许多植物叶绿体基因组,如茶树和大戟科植物。此外,三个密码子位置的GC含量顺序通常为GC1 > GC2 > GC3,与大多数被子植物的模式一致。
中性理论认为,碱基突变和自然选择对密码子第三个碱基的变化有中性或近乎中性的影响。当密码子使用受到自然选择的塑造时,GC3值通常落在一个狭窄的范围内,GC12和GC3之间没有显著相关性。本研究中性分析的结果表明,宽叶仙女木叶绿体基因组的密码子偏好主要受自然选择驱动,可能是适应该物种生存的严酷高山环境。这种碱基偏好有助于研究人员通过解开该物种的遗传密码及其功能,找到抗高温等气候变化胁迫的遗传标记或性状。此外,PR2和ENC图分析表明,该物种叶绿体基因组的密码子偏好也可能受到包括突变在内的其他因素的影响。在翠雀花(Delphinium grandiflorum)中,以A/T结尾的密码子主要受自然选择的塑造。因此,植物的密码子偏好可能受到多种因素的影响,这些因素在不同物种间可能存在差异。
宽叶仙女木叶绿体基因组中最优密码子的鉴定受到强烈的正选择或突变的影响。研究表明,密码子使用模式在基因表达中起作用,表达水平越高,密码子偏好越强。这种偏好通过影响翻译的准确性和效率来影响基因调控。植物叶绿体基因表达载体通常使用最优密码子来增强基因表达。此外,分析密码子使用模式还可以为了解未知功能基因的表达提供线索。因此,本研究中对最优密码子和密码子使用模式的研究对于了解物种进化和在宽叶仙女木中最大限度地提高外源基因的表达至关重要。
结论
在本研究中,首次对宽叶仙女木叶绿体基因组中的密码子进行了全面分析。结果显示,基因的碱基组成并不主要由G和C构成,GC含量平均为38.08%。具体而言,第三个密码子位置的GC含量仅为27.08%,这表明该物种的叶绿体基因偏好以A/U(T)结尾。进一步分析表明,影响密码子使用偏好的主要因素是自然选择,突变在进化过程中也发挥了一定作用。最后,本研究确定UCA、CCU、GCU、AAU、GAU和GGU为最优密码子。在本研究中识别出的最优密码子和密码子使用偏好可能为增强宽叶仙女木对气候变化相关胁迫(如温度升高)耐受性的基因工程策略提供目标,从而有助于保护工作并支持其在环境变化中的生存。因此,这些发现为未来关于宽叶仙女木物种进化和叶绿体基因工程的研究提供了基础数据集,特别是在适应气候变化方面。
温馨说明
1、惠通生物针对叶绿体、线粒体测序项目组装结果准确,可以提供定制化高级分析,欢迎联系我们获取小基因组文章专业解决方案,助力文章发表。
2、惠通生物小基因组服务电话:18926264030
欢迎关注物种分类及进化研究
深圳市惠通生物科技有限公司,成立于2016年,技术成员在生物信息方面均有10年以上分析经验,在小基因组项目(叶绿体、线粒体、病毒)上形成强劲技术优势并可提供定制化高级分析内容。成立至今已服务客户单位200余家包括中国科学院植物研究所、中国科学院昆明植物研究所、华南农业大学、浙江大学、中国人民解放军疾病预防控制中心、武汉水生生物研究所等科研单位。合作老师发表小基因组SCI文章逾200篇,发表在《BMC Plant Biology》、《forests》、《 Frontiers in Plant Science》、《Frontiers in Microbiology》、《molecules》、《International Journal of Biological Macromolecules》、《Plant Genome》、《International Journal of Molecular Sciences》、《Infectious Diseases of Poverty》、《Insect Science》、《genes》、《frontiers in Veterinary Science》《Frontiers in Immunology》等杂志。