至2024年11月,NCBI (National Center for Biotechnology Information)已公布了上百个造礁石珊瑚(Scleractinian corals)基因组[1],其中组装到染色体水平的基因组共有36个【桑格研究所(Wellcome Sanger Institute)提供了28个】。在这36个基因组中,经过NCBI多轮评估,共有29个被评选为参考基因组(Reference genome),但仅有5个被进一步评选为注释基因组【NCBI RefSeq (Reference Sequence Database);即标准基因组,俗称旗舰基因组】[2],作为全球石珊瑚研究的基因组背景。在这5个注释基因组中,有4个是来自于东南大学数字医学工程全国重点实验室陆祖宏、何春鹏课题组的组装成果。
从2022年开始,全球动植物基因组研究进入到了颠覆性变革时代。Wellcome Sanger Institute依靠PacBio HiFi (High-Fidelity)和Hi-C (High-throughput Chromosome Conformation Capture)联用技术系统【部分结合ONT (Oxford Nanopore Technologies)测序技术】率先发起“总攻”,对上万种重要的动植物基因组进行了地毯式的染色体水平测序组装(很多组装到了单倍型水平),涵盖了系统发生树(Phylogenetic tree)的所有重要节点,几乎占领了所有的NCBI参考基因组[1]和注释基因组[2]高地,迅速替代了大部分早期基于单一illumina二代测序技术所获得的基因组数据,在种质资源方面获得了空前的基因数据“大盘”优势。
但与普通陆生动物不同,石珊瑚等刺胞动物具有与虫黄藻等共生生物终生共生的特点,而且一种石珊瑚还经常与多种虫黄藻同时内共生[3],因此石珊瑚基因组在DNA提取方面属于典型的高污染基因组。再者,石珊瑚等海洋生物的基因组具有父母亲本高杂合的特性。以上两特性导致石珊瑚基因组是动物界中最难准确组装到染色体水平的基因组之一。新兴的HiFi测序技术虽然高效,但并不适合高污染、高杂合基因组的直接组装。虽然HiFi测序数据的准确性在PacBio CLR (Continuous Long Reads)测序数据的基础上提高了很多,但对于高污染或高杂合样本,HiFi测序数据在直接组装过程中会显著增加将污染或杂合序列组装进基因组的几率。从2017年开始,陆祖宏、何春鹏及课题组的10多名科研人员针对石珊瑚基因组的特点和PacBio、Nanopore及Illumina等高通量测序技术的各自优势,制定出一套基于初评、测序、排污、组装、注释的多步技术方案,分离、排除了多种共生藻的干扰,最终得到了组装质量较高的染色体水平的石珊瑚基因组。
陆祖宏、何春鹏课题组此次组装的4种石珊瑚基因组分别为:美丽鹿角(轴孔)珊瑚(Acropora muricata, GCF_036669905.1)、叶形表孔珊瑚(Montipora foliosa, , GCF_036669935.1)、叶板蔷薇珊瑚(Montipora capricomis, GCF_036669925.1)和疣状杯形珊瑚(Pocillopora verrucosa, GCF_036669915.1)。以上4种石珊瑚均为印度洋-太平洋地区(Indo-Pacific region)珊瑚礁中的主要优势物种,其中A. muricata、M. foliosa和P. verrucosa来源于西沙岛礁,为当地的常见物种。Acropora是石珊瑚目(Scleractinia)的第一大属,A. muricata是该属的常见优势种。Montipora是石珊瑚目的第二大属,M. foliosa是该属的常见优势种,M. capricomis则因其绚丽的颜色而在石珊瑚水族箱养殖产业中非常受欢迎。现生石珊瑚目可以分为Complexa和Robusta两大分支,Acropora和Montipora属于Complexa分支,Pocillopora属于Robusta分支。Acropora和Montipora两属对于维持珊瑚礁表面活体层的碳酸钙结构及生产能力至关重要。P. verrucosa是重要的礁前珊瑚,其分支粗壮,生长快速,个体直径大,具有形成生物水下消波块的能力。因此,这三个属的石珊瑚对生物造礁、护礁、固礁至关重要,是海洋建设土交材建工程的良好补充,是实现海洋碳中和与负碳排放的中坚力量。
RefSeq是由NCBI创建的一个高质量注释基因组数据库[图1]。NCBI对基因组是否能够被纳入RefSeq数据库有明确的筛选和评估标准。以下是能够获得NCBI注释,成为RefSeq基因组的一些关键条件:
图1. NCBI标准化基因组注释流程[2]
对于目前全球共生刺胞动物尤其是石珊瑚基因组的研究进展,何春鹏认为:虽然在国际科学界的共同努力下,取得了一定进展,获得了一定数量的组装质量相对较高的染色体水平基因组,但与小鼠、果蝇等模式生物和水稻、小麦等重要经济作物相比,还存在一定差距,如亲本单倍型基因组组装和基因水平转移(Horizontal Gene Transfer, HGT)现象确认等。古生物研究表明,石珊瑚与虫黄藻之间的内共生关系至少从开始进行生物矿化之初,即在三叠纪安妮期就已经形成[4]。科学界在几十年前就确信,经过至少2.4亿年的漫长演化史,石珊瑚和虫黄藻之间存在一定的基因水平转移现象,即有部分虫黄藻基因被水平转移到了石珊瑚基因组中,造成石珊瑚具有一定的植物特性[5]。但相关现象一直没有被准确的测序结果所证实,相关数据在上传NCBI过程中一直得不到官方认可,被作为污染序列直接屏蔽或删除。NCBI相关业务线负责人Linda Frisse博士认为,必须有更加准确的长读长测序数据(Reads),如基于read N50≥200 Kb的高覆盖度长读长测序数据组装出来的T2T (Telomere-to-Telomere)水平基因组(Contig N 50≥10 Mb),甚至是单倍型基因组,才能更好的准确解释相关现象。基于上述原因,Nature杂志资深编辑Michelle Trenkmann认为,尽管与十几年前相比,相关领域的研究已经取得了巨大进展,但还未能彻底解决石珊瑚基因组的底层问题,仍然需要进一步的“硬”创新。目前,HiFi测序技术全面替代CLR测序技术是大势所趋,超长DNA提取技术和超长ONT测序技术也在高速发展【基于早期ONT测序技术组装出来的石珊瑚基因组[6]和其他共生刺胞动物基因组(如八放软珊瑚基因组)并不成功[7]】。因此,在现有成果基础上,首先对HiFi reads进行排污,然后与超长ONT reads进行混合组装,再结合Hi-C技术进行辅助组装,有望快速获得T2T水平的高精度石珊瑚基因组[8]。在此基础上,既可以进一步探讨石珊瑚与共生藻之间的基因水平转移、石珊瑚单倍型基因组等之前难以有效探索的生物学问题,又可以基于AI (Artificial Intelligence)生物制药思维,依托新兴的H100等GPU平台和单细胞测序数据,对石珊瑚进行更加深入的蛋白结构重建(AlphaFold结合冷冻电镜技术)和细胞通讯(Cell chat)分析,找到与石珊瑚抗热、生长及其他抗胁迫相关的关键生物学因素,运用细胞目穿透转运和海洋缓释技术予以干涉,增加珊瑚礁生态修复的技术效果。
对于动植物基因组的基因注释信息获取和更新,陆祖宏认为:目前仍过度依赖NCBI平台,我国具有庞大的物种资源和生物信息分析需求,我国应加速发展自身的高通量长片段测序和基因注释平台,建立自己的测序数据存储和评价数据库。
该项目在执行过程,在石珊瑚的基础生物学特性、核型分析、生态分布等方面得到了广州海洋实验室、中国科学院南海海洋研究所张偲院士团队、张跃环研究员团队的大力指导和支持。
项目主要参与人员:陆祖宏、何春鹏、韩婷玉、黄万龙、王冰、张偲、张跃环、陈均远、廖馨、李一鑫、郭卓君、刘云卿、毕长伟、鲁娜。
供稿:陆祖宏、何春鹏课题组