目前,小鼠的参考基因组GRCm39在与重复序列相关的常染色质和异染色质区域都存在较大的缺口。2024年12月5日,西湖大学俞晓春团队在Science 在线发表题为”The complete telomere-to-telomere sequence of a mouse genome“的研究论文,该研究对小鼠单倍体胚胎干细胞的端粒到端粒基因组进行了测序和组装。结果揭示了超过7.7%的先前未被揭露的小鼠基因组序列,包括核糖体DNA阵列、周中心粒和亚端粒区域,以及另外140个被预测为蛋白质编码的基因。这项研究有助于解决小鼠基因组的知识空白。小鼠(Mus musculus)的参考基因组为广泛的遗传研究提供了宝贵的资源。小鼠基因组测序联盟(MGSC)启动了小鼠C57BL/6的基因组测序项目,基因组参考联盟(GRC)在2020年更新了同一品系小鼠基因组的最新版本(标记为GRCm39)。然而,小鼠参考基因组组装主要整合了从两个细菌人工克隆(BAC)文库(RPCI-23和RPCI-24)获得的测序数据。现有测序技术的局限性给实现完整和精确的组装带来了困难。特别是,GRCm39包含大约73.5兆碱基对(Mbp)的未识别序列,分布在整个基因组中。这些区域包括亚端粒区和中心点周围区以及核糖体DNA (rDNA)阵列,它们在不同的生物活动中都起着重要的作用。例如,在有丝分裂和减数分裂期间,中心点周围区域参与染色体的适当分离。从这些区域转录的RNA介导间期异染色质的形成。然而,这些区域很难测序,主要是由于它们包含不同长度的重复序列。此外,与人类染色体不同,小鼠染色体的着丝粒在短臂上靠近端粒。因此,端粒间隙与着丝粒间隙合并,在GRCm39中导致小鼠染色体一端出现大量未测序区域。mhaESC基因组的基因注释(图源自Science )长读测序技术的出现,如PacBio公司的HiFi环形共识序列和Oxford Nanopore公司的大于100千碱基对(kbp)“超长”测序,使得克服现有的技术挑战并实现端粒到端粒(T2T)基因组组装成为可能。2022年,T2T联盟成功完成了人类基因组组装。在这里,研究人员使用来自C57BL/6的小鼠单倍体雄激素胚胎干细胞(以下简称mhaESC),检测并组装了T2T小鼠基因组(T2T mhaESC)。目前的版本覆盖了以前未知的区域,揭示了以前未识别的基因,并纠正了GRCm39中存在的测序错误。西湖实验室助理研究员刘俊丽博士和李麒麟博士为本文的共同第一作者,西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授为通讯作者。本研究得到国家自然科学基金、浙江省自然科学基金、浙江省“尖兵”&“领雁”项目、杭州市领军型创新创业团队、西湖教育基金会和西湖实验室提供的经费支持,同时感谢西湖大学生物医学实验技术中心、实验动物中心及高性能计算中心等平台的支持。https://www.science.org/doi/10.1126/science.adq8191—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!