Genome Research|昆虫基因组中的重复序列

文摘   科学   2023-10-17 17:31   英国  

【全文要点】

重复序列一般可以分为散布重复序列和串联重复序列。前者主要包括了转座子,后者主要包括了卫星DNA序列等。

本研究分析了约600种昆虫基因组中的重复序列的分布情况。

重复序列在昆虫基因组中占比从1.6%至81.5%,其中DNA转座子是普遍占比最高的重复序列,特别是在鞘翅目昆虫中,而在鳞翅目昆虫中DNA转座子占比较少。

LINE类转座子是第二多的重复序列,不过含量在各个昆虫目中存在较大的差异。在膜翅目昆虫中含量较少,只占基因组的1.8% ± 1.7%。

LTR类逆转座子在昆虫中含量较少,但是果蝇中却很多。不过,这种差异可能是识别方法造成的,LTR转座子一般较大,结构复杂,比较难以识别,因而可能低估了其在其他昆虫中的含量。

重复序列在各昆虫基因组中的占比

同时发现,在昆虫中,基因组越大,其重复序列的含量也越多。

研究还比较了不同测序方法对基因组中重复序列识别的影响。结果发现,长读长测序识别出来的重复序列比短读长识别出的重复序列多36.1%。这种识别差异在LTR上表现的特别明显,长度长比短读长高出162%;其次是DNA转座子,高出47%。

研究比较了含有重复序列的基因(RE-associated BUSCOs),发现在含有较多LINE转座子的物种中,含有重复序列的基因比较也会较多。特别是在鞘翅目、半翅目等昆虫中,该类基因可以占全部基因的25%;而在膜翅目和双翅目中则较少,只有1-2%。

重复序列的识别依赖于参考数据库(比如RepBase, Dfam等),本研究发现,如果一个昆虫物种的演化距离离黑腹果蝇越远,那么在该昆虫基因组中能够识别并分类的重复序列就越少。比如,在所有果蝇物种,未分类的重复序列只有13.1%;而在其他类昆虫中,未分类的重复序列可高达40.5%。当然, 这些未分类的重复序列一般长度都比较短一些。

演化距离离果蝇越远的物种,其基因组中未被注释的重复序列比例越高。体现了重复序列参考数据库对物种的偏倚。

在RepBase的数据库中,昆虫的重复序列大部分来自蚊科和果蝇科。

这也体现了重复序列参考数据库的偏倚对昆虫基因组注释和重复序列识别的一个巨大影响。

保持一个含有较多重复序列的较大基因组可能具有一定的适应性优势,比如在石蛾(caddisfly)中,基因组较大的支系往往具有更高的多态性和更宽的生态位。

资料来源:Sproul, J., Hotaling, S., Heckenhauer, J., Powell, A., Marshall, D., Larracuente, A. M., ... & Frandsen, P. B. (2023). 600+ insect genomes reveal repetitive element dynamics and highlight biodiversity-scale repeat annotation challenges. Genome Research, gr-277387.




AI写代码的DNA
我的群体进化遗传学 学习笔记~~~ 学习|交流|进步