01人类基因组故事
1986年,诺贝尔奖得主雷纳托·杜尔贝科在《Science》杂志上撰文,强调人类基因组测序对治愈癌症的巨大作用,呼吁美国政府支持人类基因组测序,以促进癌症研究。
同年,杜尔贝科和其他科学家联合发起了“人类基因组计划”。此前负责调查放射性对DNA影响的美国能源部,于1986年,发表报告指出:“就像人体解剖学之于医学发展的贡献,对人类基因组的认识,将为医学和其他健康科学的进展,提供必不可少的支持。”
1990 年,号称“30 亿美元,30亿个碱基对”的人类基因组计划由美国能源部和美国国立卫生研究院(NIH)正式启动,该计划的目标是读出编码人类遗传指令的全部30亿个碱基对,绘制出人类基因组图谱。预计完成这项计划将需要15年,耗资30亿美元,合每个碱基对1美元。之后,英、法、德、日、印等国相继加入,我国也在 1999 年 9 月正式加入人类基因组计划并承担 1%的测序工作。人类基因组计划组成了一支国际人类基因组测序联盟。
2000年6月26日,林顿总统在白宫郑重宣布,“人类有史以来制作的最重要、最惊人的图谱”——人类基因组草图完成。
2001 年 2 月国际人类基因组测序联盟和文特尔团队的人类基因组工作草图的具体序列信息、测序方法以及序列的分析结果分别发表于 Nature 与 Science 杂志。
认识人类全基因组特征:
包含超过30亿个DNA编码字母(碱基);
DNA由ATCG四个字母组成,如果编写成书,将超过150万页;
DNA的结构按碱基对排列,就像螺旋楼梯(双螺旋)一样连接;
基因总数约 20,687;
基因组包括23对染色体,共46条;
人类的复杂性来自于基因网络(比个体基因数量更重要),基因可在特定情况下开启或关闭【基因的选择性表达】,并以不同的组合发挥作用,产生近乎无限的功能;
基因仅占基因组的一小部分(仅2%),大多数DNA要么调节基因,要么功能未知,要么什么都不做(垃圾DNA);
我们过去的进化一部分是在基因组中进行的,DNA片段不再起作用,它们是来自古代生物的DNA遗迹,这些DNA一直处于休眠状态,这些片段远远超过基因;
人类在DNA水平上有99.9%的相似性(每1,200个碱基中有一个碱基的差异,称为SNP,人类有多少个SNP?)。
02 测序技术的发展与原理
这是一项艰巨的任务,由于测序仪能读取的长度不超过1000bp,因此,测序时必须把基因组分成测序仪能够处理的片段。各国科学家先将整个基因组分成了长度约为150000个碱基对的较大片段,再在细菌体内克隆成千上万的拷贝,然后确定这些克隆片段在染色体上的位置。接着,每个克隆片段被进一步分解为若干随机小片段,测定序列后再根据末端重叠匹配拼接。最后,已经完成序列测定的克隆片段会被定位到染色体的相应位置,最终组成完整的遗传密码。这种技术周密详尽,但速度太慢。到1998年,各国科学家花费了一半的经费,但仅仅完成了整个人类基因组3%的测序工作。
1998年,遗传学家克雷格·文特尔与DNA测序仪制造商ABI(含PE)达成合作,创立塞雷拉(Celera Genomics)公司,开始对人类基因组进行测序,并计划于2001年完成人类基因组测序。
文特尔原本是美国国立卫生研究院(NIH)的测序专家,也是国际人类基因组测序联盟中的一员。但他认为用传统的“链终止法”测序效率实在太低,他提出了一种更为简单快捷的测序方法,称为霰弹枪测序法 (Shotgun sequencing),俗称“鸟枪法”,这个方法跳过定位步骤,将基因组打断为数百万个 DNA 片段,并对每个片段进行末端测序,然后应用一定算法的计算机程序将具有相同末端序列的片段重新整合拼接在一起,从而得到整个基因组序列。但此提议却遭到NIH的研究者的一致反对。
虽然这种“鸟枪”测序法先前已被用于测定细菌和病毒的DNA序列,但是很多专家认为对于人类如此复杂的生命机体而言,该方法的精确性有待商榷。
尽管文特尔四处游说,但仍然无法为他的这一方法获得公共资金支持,这让文特尔非常沮丧。
1992 年 7 月,文特尔离开美国国立卫生研究院,成为位于马里兰州罗克维尔的非营利性基因组学研究机构基因组研究所 (TIGR) 的创始人兼董事会主席。他一直担任其总裁,直到 1998 年,创立塞雷拉。
在塞雷拉,文特尔使用“鸟枪“法进行测序,短期内便赶超了国际人类基因组测序联盟8年的成果,就连对文特尔批评很多的诺贝尔奖得主、DNA双螺旋结构的发现者沃森(James D. Watson)也不得不承认他的发现是“科学上的伟大时刻”。
如果两个团队只是在测序方法上产生分歧,那倒还无关紧要,但在对测序数据的处理方面,双方也持有截然不同的观念。
国际人类基因组测序联盟自始至终认为人类基因组是全人类的共同财产,并且只要一有成果就会立即上传到公共数据GenBank,而文特尔领导的塞雷拉公司,其目标是成为基因组学和相关医学和生物学信息的权威来源,他们准备打造一个强大的基因数据库并出售其访问权,可供其他公司用来发现新基因和研发新药物。
为了阻止文特尔将基因数据私有化的举动,人类基因组计划不断加快工作进度,希望能够在文特尔之前,将研究结果公之于众,以阻止任何相关的所有权申请。但他们的进度还是落后一步,2000年 4 月 6 日,文特尔的研究小组向全世界宣布他们已经完成了人类基因组的测序工作,并且他们已经将人类的 6 500 个基因申请专利保护。其增值的数据库大有用武之地,许多公共科研机构和制药公司争相购买。
为阻止人类基因组专利落入文特尔之手,“人类基因计划”非官方领导人弗朗西斯·科林斯和文特尔开始了秘密接触,由于“人类基因计划”有落后之嫌,所以科林斯面临巨大压力,双方争论的焦点是:这一具有科学里程碑意义的荣誉究竟应该划到谁的头上?谁的基因组排序更完整、更准确、更有用?这一人类最重要的数据是否应该免费向全球开放?
双方讨价还价,吵得不可开交,时任美国总统的比尔·克林顿的介入,对双方的休战起到了关键作用。最终,文特尔最终放弃了申请专利的要求,双方达成了协议:同时联合宣布成功绘制出人类基因组草图。
这场基因的战争终于尘埃落定,而这场激烈的竞争本身对人类是有益的,在竞争的刺激下,人类基因组的测序速度远远超出了十年前所有人的想象。
原本按最初的设想,该项目将在 2005 年完成,在文特尔加入竞争之前,以各国科学家到1998年仅完成3%的进度,真正要完成100%的测序工作不知要到猴年马月,但在文特尔的刺激下,研究人员表现出了令人难以置信的凝聚力、专注和惊人的速度,尽管文特尔率先完成了基因组的测序工作,但国际小组紧随其后,比原计划提前了五年,不可谓不是一个奇迹。
在这个过程中,除了文特尔的贡献之外,自动化测序技术也极大地促进了大规模基因组测序的工作,在自动化测序技术问世之前,人们只能依靠手动测序,当时,进行一项DNA测序实验需要忙活2-3天,只能读取大约300-1000个碱基对,而人类DNA有30亿个碱基对。(生物学上描述DNA常用的kb、nt、bp 表示。kb= 千碱基对 kilobase ,nt= 核苷酸 nucleotide ,bp=碱基对 base pair)
以最大读取长度1000bp来算,3,000,000,000除以1000,需要进行3,000,000次实验,耗费的时间以2来算,3,000,000乘以2,需要耗费6,000,000天,再折合成年,约需16,438.37年,解密人类基因组无异于异想天开。
而自动化测序技术的问世,大大推进了人类基因组计划进行的可行性。
1987 年,Leroy Hood 和 Michael Hunkapiller 基于开发了ABI 370,这是一种自动化 Sanger 测序过程的仪器。其最重要的创新成就是用荧光染料而不是放射性分子自动标记DNA片段。这种变化不仅使实验方法更安全,而且还允许计算机分析获取的数据[Hood et al.,1987](亦有文献报道是1986)。尽管这只是半自动测序仪,但依旧为科学家们大大节省了时间。而1998年,ABI公司推出的ABI Prism 3700毛细管测序仪,它的上样、数据收集、质控、初步分析都实现了自动化,是第一台真正的全自动测序仪,实现了测序技术从手工到自动化的飞跃,为人类基因组计划做出了历史性的贡献。
值得一提的是,文特尔是自动基因测序仪的率先使用者,1986 年,Nature 杂志上报道了 Smith 等发明的一种DNA 序列自动分析技术,Venter 立刻与发明人取得联系。几个月后,Venter 便拥有了当时 NIH 的第一台自动基因测序仪,凭借先进的工具,成为当时发现基因最多的遗传学家。
更甚者,在人类基因组计划的刺激下,其他更高通量的测序技术不断涌现。
2005年,454生命科学公司(454 Life Sciences)推出了革命性的基于焦磷酸测序法(使用边合成边测序技术)的超高通量基因组测序系统——Genome Sequencer 20 System,意味着一个新的时代到来——二代测序的时代。
以边合成边测序为代表的二代测序技术,能够一次并行对几十万到几百万条DNA片段进行序列测定,称为高通量测序技术(High-throughput sequencing)或大规模平行测序(Massively parallel sequencing,MPS),这是对传统测序一次革命性的改变,也由于其跨时代的意义,这类测序技术被称为第二代测序或下一代测序(next generation sequencing ,NGS)。由于NGS可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深度测序。
此前提及过克雷格·文特尔(Craig Venter)在进行人类基因组测序时采用“鸟枪法”策略,其做法是把要测序的基因组切成随机碎片,同时对这些碎片进行测序,再将所得的测序结果拼合起来,得到完整的基因组序列。
NGS的原理与之类似,也是需要把基因组DNA打碎到足够小的片段(具体取决于测序仪能够测定的大小),同时对这些碎片进行测序,最后再把这些序列进行拼接,不同的地方在于,文特尔测序时需要分批次或者使用多台毛细管测序仪才能同时对这些碎片测序,而NGS只需一台设备在同一时间内即可对几十万到几百万条碎片进行序列测定,如此,便显著提高了测序速度,大大缩短了测序一个基因组DNA所需的时间,而且它还节省了大量成本。
第一个人类的基因组,从1990年到2003年,花费超过30亿美元。(虽然人类基因组计划在2000年宣布完成,但当时只有28%的基因组真正完成,还有很多缺口以及千分之一的错误率,最终版本于2003年公布,已完成99%的基因组,错误率低于万分之一。)即使2003年之后,用Sanger法测序一个人的基因组,成本也高达3000-5000多万美元,成本十分昂贵。
而现在,华大智造高通量测序仪T20,其测序成本已经小于10元/G,测序一个人的基因组,以全基因组3G,测序深度30x计算,成本已经在1000元之内。
现在测序技术还在不断发展,除二代测序以外,以PacBio公司的SMRT(single molecule real time sequencing)单分子实时测序技术和和Oxford Nanopore Technologies纳米孔单分子测序技术为代表的第三代测序技术也开始在市场上崭露头角。
相较于前两代测序技术,第三代测序技术的显著优势在于它能够实现单分子测序,其测序过程无需依赖PCR扩增,并且拥有超长的测序长度(读长)。
这些特点使得第三代测序技术在某些应用领域具有独特的优势。首先,无需PCR扩增的测序过程,不仅简化了实验流程,同时减少了因PCR扩增引起的序列误差,提高了测序数据的准确性。其次,超长的读长使得第三代测序技术在基因组组装、结构变异检测、基因表达分析等方面表现更为出色,特别是在复杂基因区域和重复序列的解析上,超长读长能够提供更全面的信息。因此,第三代测序技术在基因组学研究、临床诊断、遗传病筛查、微生物检测等领域展现出了广阔的应用前景。
不同测序平台的测序原理各有千秋,后续的学习分享中我们将逐一展开介绍。
相关的课件和视频资源已同步至知识星球【精准医疗探索】,如有需要,请加入后进行下载查看。