读书笔记 | 癌症计算系统生物学 Chpter 01

文摘   2024-11-07 06:48   中国香港  

第 01 章 引言:为什么选择癌症系统生物学?

目录

  • 目录

  • 前言

  • 1.1 癌症是一个重大的健康问题

    • 1.1.1 历史简述

    • 1.1.2 癌症的定义

    • 1.1.3 关于致命疾病的若干事实

    • 1.1.4 癌症治疗的进展是真实的,但还不够

    • 1.1.5 癌症药物开发需要质的飞跃

  • 1.2 从基因组到基因再到网络

    • 1.2.1 突变的累积

    • 1.2.2 癌症是一种基因病

    • 1.2.3 癌症是一种网络疾病

  • 1.3 癌症研究作为一种大科学

    • 1.3.1 癌症研究是技术驱动的

    • 1.3.2 微阵列时代

    • 1.3.3 下一代测序时代

    • 1.3.4 癌症研究和国际数据提供者联盟

  • 1.4 癌症是一种异质性疾病

    • 1.4.1 癌症的异质性

    • 1.4.2 分解肿瘤异质性:肿瘤分类

  • 1.5 癌症需要个性化医学

    • 1.5.1 个性化医学的定义

    • 1.5.2 选择合适的治疗:预测和预后

    • 1.5.3 设计个性化治疗方案

  • 1.6 什么是系统生物学?

    • 1.6.1 系统生物学的操作性定义

    • 1.6.2 系统生物学:数据驱动还是模型驱动?

    • 1.6.3 系统生物学:另一种定义

    • 1.6.4 癌症的系统生物学

  • 1.7 关于本书

    • 1.7.1 本书的目标

    • 1.7.2 本书的适读者群

    • 1.7.3 本书的组织结构

前言

癌症可能与生命同龄,但仍然是一种广泛存在且具有破坏性的疾病。几代科学家和医生致力于改善患者护理并根除癌症。他们在抗击癌症的斗争中做出了巨大的贡献。然而,癌症仍然是世界上第二大致死和致残原因,仅次于心脏病。要战胜癌症,迫切需要进一步的进展。
癌症的发生和发展与基因功能失调密切相关。人类基因组的测序和随后的基因组革命极大地影响了癌症研究,使得在分子水平上解析癌症成为可能。与此同时,过去十年见证了系统生物学的兴起,这是一门旨在利用数学和计算工具捕捉涉及复杂相互作用的生物现象复杂性的研究新领域。
在本书中,我们希望向读者阐明应用于癌症研究的计算系统生物学方法。这些方法为战胜癌症提供了新的有希望的见解。本章通过给出癌症和系统生物学的定义,设定了本书的一般背景。我们介绍了癌症研究的科学和技术方面,包括其与临床的联系。本章还描述了本书的精神并提供了阅读指南。

1.1 癌症是一个重大的健康问题

1.1.1 历史简述

癌症可能与生命同龄。转移性癌症的证据在Edmontosaurus化石(白垩纪)中被报道,肿瘤在尼安德特人头骨(公元前35,000年)、埃及和印加木乃伊中被报道(David 和 Zimmerman,2010)。人类中最古老的癌症描述出现在公元前3000年至公元前1500年之间的埃及纸草书中。其中,Georg Ebers纸草书、Edwin Smith纸草书(约公元前1600年)和Kahun纸草书(约公元前1825年)包含了与现代癌症描述一致的病状细节。在希腊,医学之父希波克拉底·德·科斯(Hippocrates de Cos,公元前460–公元前370年)在《希波克拉底全集》(Corpus Hippocraticum)中详细描述了癌症,并使用希腊词汇carcinos(癌)和carcinoma(癌瘤)来指代似乎是恶性肿瘤的慢性溃疡或生长物,以及scirrhus(硬癌)来指代一种质地坚硬的癌症。在希腊语中,carcinos 意为龙虾、溃疡、癌症、肿瘤,而skirros 意为实体瘤(名词)和坚硬、硬化(形容词)。罗马医生Celsus(公元前28年–公元50年)将希腊词carcinos翻译为拉丁词cancer,意为蟹、龙虾、傻瓜和癌症。这个词源于某些癌性病变的形态类似蟹。在艺术史中,也可以找到该疾病的证据。鲁本斯(Rubens)和伦勃朗(Rembrandt)是主要的巴洛克画家,他们实践现实主义(他们画下眼睛捕捉到的任何东西)。这使得医生能够发现他们所画模型乳房中的肿瘤变化。最著名的描绘乳腺肿瘤的画作之一是伦勃朗的油画《洗澡的浣喔》(Bathsheba at Her Bath)(见图1.1):一位意大利外科医生首次建议伦勃朗可能在画中描绘了乳腺肿瘤,准确展示了他模型亨德里克耶·斯托弗斯(Hendrickje Stoffels)所患致命疾病的临床症状(左乳房的暗影)(Vaidya,2007)。癌症不是一种现代疾病,而是历经时代,可能自生命起源以来就存在。
image-20241106050450851
图 1.1  巴斯基巴在洗澡。
伦勃朗 · 哈尔门松 ·凡 · 瑞恩 (1606-1669) ,1654 年,油画,142 x 142 厘米,巴黎卢浮宫,法国。

1.1.2 癌症的定义

癌症是一种可以影响人体大多数组织的病理状况。它通常被定义为细胞的失控生长,并且在实体瘤的情况下,伴有对基础组织的侵袭。作为一个附加特征,许多癌症(但并非全部)还可以经历肿瘤细胞从原发部位(即原发肿瘤)迁移到远处定居的现象,称为转移,这是导致大多数致命病例(约90%)的原因。这一最初的癌症定义涵盖了所谓的恶性肿瘤。为了完整性,我们还应该在该定义中包括白血病,它并不产生肿瘤,而是在血液中产生循环肿瘤细胞,源自造血组织。第二个更广泛的定义还包括良性肿瘤,这些肿瘤显示出细胞失控生长但无侵袭性,并且在大多数情况下不威胁患者生命。第一种定义通常用于临床肿瘤学,而在癌症生物学中通常更倾向于使用第二种定义。本书将使用第二种定义。有关癌症、其分类和生物学的更多细节将在第2章中给出。

1.1.3 关于致命者的一些事实

尽管是一种古老的疾病,癌症仍然是一个重大的健康问题。癌症是全球主要的致死原因之一,2008年导致760万人死亡,新发病例达到1270万例(来源:国际癌症研究机构,GLOBOCAN数据库,http://globocan.iarc.fr)。每年每八人中就有一人死于癌症,超过艾滋病、疟疾和结核病的总和。在许多西方国家,癌症现已成为主要的死亡原因,超过心血管疾病。一些癌症的发病率很高,如乳腺癌在一生中影响1/9的女性。在发展中国家,发病率较低,但生存率要差得多,主要因为发现较晚以及医疗质量低下或缺乏。此外,在中国、印度和许多发展中国家,癌症死亡率正在上升,主要由于吸烟和饮食习惯。预计到2030年,全球每年的死亡人数将达到1700万。

1.1.4 癌症治疗的进展是真实的,但仍不够

由于癌症在公共健康中的重要性,每年投入大量努力以扩展和深化我们对肿瘤进展的理解,开发新的治疗分子并改善癌症医疗护理。患者治疗在过去几十年中显著改善,许多新的治疗分子被开发出来。总体而言,我们现在能够治愈一半以上的癌症病例。发病率和死亡率也在全球范围内下降,美国在2003-2007年期间癌症发病率每年下降1%,死亡率下降1.6%。
然而,这一令人鼓舞的情况需要更深入的审视。首先,下降在很大程度上归功于预防,至少对于某些癌症。流行病学研究已经显示环境因素在癌症风险中的作用(如肺癌中的烟草暴露),识别这一原因使得预防计划能够在几年甚至几十年后见效。其次,这种癌症死亡率的全球性下降掩盖了由于不同生活习惯或风险暴露而在地理区域间存在的显著差异(例如,印度和中国的口腔癌和肺癌在上升)。第三,死亡率和治疗成功率在不同类型的癌症、患者年龄和性别间差异很大。总体而言,这种情况呼吁在癌症预防方面的改进,但当然也包括癌症治疗的改进,特别是新药的开发。肿瘤的早期检测也是影响成功治疗机会的关键因素。但开发新药现在越来越困难,成本也越来越高。药物发现管线不那么富有成果的原因有很多,特别是许多开发中的药物显示出有限的疗效,并对其他细胞表现出非靶向效应和毒性。在癌症的背景下,通常有很大比例的患者对治疗没有反应,或者在初步反应后可能复发。因此,一种治疗适用于所有人的策略大多时候是失败的。找到特定的靶点,并预测哪些患者将从特定治疗中受益,将因此具有极高的价值。

1.1.5 癌症药物开发的进展需要质的演变

从历史上看,最早用于癌症治疗的治疗分子是针对快速复制的细胞,且对特定靶基因或蛋白质没有特异性,像氮芥这样的化合物对DNA发挥作用。20世纪80年代癌基因肿瘤抑制基因(参与肿瘤进展的基因,见第2章)的发现,随后是其信号通路的识别,重新激发了“魔法子弹”的古老理论(参见Strebhardt 和 Ullrich,2008年的历史视角)。根据Paul Ehrlich在1900年提出的这一范式,应该可以识别与癌细胞相关的特定受体,然后用结合受体的药物特异性靶向它们。结果,癌细胞可以被杀死。这一概念的首次实现是在1990年代末开发的曲妥珠单抗(trastuzumab,用于治疗过表达HER2基因的乳腺肿瘤)和伊马替尼(imatinib,用于治疗慢性粒细胞白血病(CML))。在这两种情况下,设计了一种人源化单克隆抗体,用于靶向特定的癌基因(曲妥珠单抗针对HER2,伊马替尼针对BCR-ABL1融合蛋白),并取得了显著的临床成功。乳腺肿瘤基因组中HER2扩增,以及CML细胞中第9号和第22号染色体的易位(即费城染色体)立即引起了人们对驱动这些肿瘤的癌基因的关注,并将其指定为天然靶点。但其他有效的干预点可能更难识别,需要适当的建模方法,这些方法将在第7章和第8章中介绍。
此外,在许多情况下,使用这些新药治疗的患者最终会发展出耐药性,需要二线治疗。这种耐药性可以通过癌症的多维性质来解释,癌症涉及许多分子参与者(基因、蛋白质、小分子等),它们在互联的通路中相互作用,可以被视为一个庞大而复杂的网络。仅靶向一个参与者可能会让调控网络中的许多绕道和反馈环路开放,这些环路将补偿治疗分子的效果。这主张使用特定药物的组合(或适当的时间顺序),或使用多靶点抑制剂(例如,多激酶抑制剂)。即使对于单个患者,魔法子弹的方法通常也需要多颗子弹。但仅凭直觉当然不足以弄清楚网络中的哪些点应该被靶向。具有许多交叉和反馈环路的复杂网络的行为不是线性的,难以立即理解。同样,适当的建模对于合理化靶点的搜索(见第7章和第8章)以及设计新药(本书未涵盖的研究领域)至关重要。
在本书中,我们展示了计算系统生物学如何在抗击癌症的三个基本部分中提供帮助:分类肿瘤发现新靶点设计改进和定制的治疗策略。预防问题也可以通过系统生物学来解决,但这超出了本书的范围。

1.2 从基因组到基因再到网络

1.2.1 变异的积累

癌症的发生以遗传和表观遗传变异的积累为特征,这些变异可能由不同的压力引起,如烟草、化学剂、辐射和病毒。这些变异通常会改变DNA和染色质结构,从而影响基因产物或基因表达的调控。它们可以采取不同的形式(详见第2章),例如染色体重排和易位(形成嵌合染色体)、小或大规模的DNA区域缺失或扩增(其拷贝数将为0或1,即缺失,而不是正常的2,或3个及更多,甚至数十个,即扩增)、倍性变异(染色体数目)或点突变(单核苷酸突变)
1971年,Knudson提出了视网膜母细胞瘤(retinoblastoma)的发生模型,基于死亡率统计,成为经典的Knudson两击模型。在该模型中,视网膜母细胞瘤的发生与两个突变的逐步积累相一致,每个突变影响RB基因的一个等位基因。该模型也适用于其他具有更多阶段的癌症,如结肠癌、胃癌和胰腺癌(Nordling, 1953; Armitage and Doll, 1954),但并非适用于所有癌症。
在所有影响肿瘤基因组的变异中,一些是疾病的致病基因(driver genes),而其他一些可能不起任何特定作用(即乘客基因,它们是邻近致病基因并同时被改变的基因)。因果关系可以通过不同的方式进行评估。一种经典的方法是在模型动物(主要是小鼠)的基因型水平上评估,因为可以进行完全控制的对比实验。最近使用拮抗药物(antagonist drugs)或相反的模拟药物(mimetic drugs)来缓解蛋白质缺陷也是在人类细胞背景下证明因果关系的另一种方式。
目前普遍接受的观点是,癌症的发展以达尔文进化原理为控制的多步骤方式进行:随机的遗传变化创造了具有增殖和存活率差异的细胞多样性;这两个过程都在严格的遗传控制下进行;时间选择了那些更有增殖倾向的细胞。

1.2.2 癌症是基因疾病

“癌症研究的革命可以用一句话概括:癌症本质上是一种基因疾病。”这句话引用自 Vogelstein 和 Kinzler(2004)在《自然医学》(Nature Medicine)上的一篇综述,他们是癌症分子生物学研究的先驱。
癌症的遗传本质今天可能看起来显而易见,但这需要很长时间才能确立。最早的癌基因(如BCR-ABL1SRC)是在1970年代发现的,随后十年发现了肿瘤抑制基因(如RBTP53等)。在过去的二十年中,生物学家们展示了这些基因被组织到信号通路中。这些通路逐步被表征。乍一看,它们似乎具有或多或少的线性结构,通过一系列转导蛋白将信号从传感器蛋白(例如膜受体)传递到效应蛋白。许多用于发现新癌基因的筛选试验被进行,结果今天已鉴定出许多与癌症相关的基因:癌症体细胞突变目录(Catalogue of Somatic Mutations in Cancer,COSMIC)数据库(v59,2012年6月)包含487个与癌症相关的基因,即癌基因名录(Cancer Gene Census,Futreal等,2004)。
癌症遗传本质的证据也来自家族研究。只有大约10%的癌症属于家族综合征类别,其中某些基因等位基因的遗传与癌症风险的增加相关。一个有力的证据是RB基因(携带突变等位基因的个体有90%的风险发展为视网膜母细胞瘤,而该病在一般人群中的频率为1/15000至1/20000),以及BRCA1BRCA2基因(携带有害等位基因的个体有10到20倍的乳腺癌风险)。
尽管存在遗传遗传的情况,但我们应强调,癌症与大多数著名的遗传疾病(如肌营养不良症)不同,主要是由于一生中获得的变异而不是从父母传递给后代。

1.2.3 癌症是网络疾病

在20世纪末,已确定参与癌症的基因数量显著增加。因此,很明显,它们可以组织在有限数量的生物功能中,这些功能被称为癌症标志(hallmarks of cancer),如Hanahan和Weinberg(2000,2011)在两篇具有里程碑意义的论文中所描述的那样。这些六个,后来扩展为八个标志与细胞存活、增殖和转移性扩散有关,并在第2章中详细介绍。
最初,看起来每个功能或子功能都有其自己的、几乎独立的通路。随着越来越多控制这些功能的基因被识别并组织到信号通路中,似乎这些通路是互相连接的,并在不同层面上进行交互。换句话说,癌症标志应被理解为观察一个独特过程——肿瘤进展——的不同方式,绝不独立。当然,这些相互连接消除了通路的线性,使其成为基因、RNA、蛋白质和其他分子之间相互作用的网络。如今,已确立如果癌症是一种基因疾病,它首先是由于控制细胞生长和扩散的基因网络失调所致。因此,基因网络建模的方法对于任何现代癌症分子生物学方法都是核心的(见第7章和第8章)。

1.3 癌症研究作为大科学

1.3.1 癌症研究是技术驱动的

在过去二十年间,生物研究飞速发展的根源可能在于生物技术(biotechnologies)带来的革命。微型化和自动化的发展速度远超预期,大大扩展了在分子和细胞层面上探索生命的实验可能性。我们如今能够探索许多以前无法触及的生物系统的分子层面。此外,我们还能够非常迅速地构建一个系统中特定层面的(几乎)完整描述(例如基因组(genome)或转录组(transcriptome);关于所用技术的详细信息,请参见第 3 章)。这场革命的第一步是人类基因组的测序(sequencing),它在 2001 年由许多实验室联合完成,历时 13 年,耗资近 27 亿美元。虽然当时的人类基因组序列实际上只完成了 90%,但其可用性为其他大规模生物技术方法铺平了道路(更不用说它对生物研究的重要意义了),如下文两节所述。

1.3.2 微阵列时代

1995 年左右,微阵列(microarrays)的出现首次使得能够同时检测多个基因的表达。在最初的一些版本中,微阵列只能检测几千个基因,但很快就变得可以评估几乎所有基因的表达。微阵列技术发展出了多种形式:基因组微阵列(genome microarrays),如比较基因组杂交阵列(array Comparative Genomic Hybridisation, aCGH)或单核苷酸多态性阵列(Single Nucleotide Polymorphism, SNP arrays),用于研究基因组的改变,如基因增益、缺失和点突变(SNP 阵列);转录组微阵列(transcriptome arrays)用于定量 RNA 的表达,包括转录水平或外显子(exon)水平的表达,或微小 RNA(miRNA)的表达;蛋白质组微阵列(proteome arrays)用于检测蛋白质的表达和活性;染色质免疫沉淀阵列(Chromatin Immunoprecipitation, ChIP arrays)用于定位基因组上的蛋白质-DNA 相互作用或研究核小体的修饰。这些技术及其他技术将在第 3 章中详细介绍。

1.3.3 下一代测序时代

自 2004 年以来,一种新技术大大加速了我们在细胞分子研究方面的能力。这种被称为下一代测序(Next-Generation Sequencing, NGS)的技术能够并行测序数亿条短序列(截至 2012 年,每次运行最多可测序十亿条序列)。除了涵盖基因组、转录组和 ChIP 阵列的应用外,这项技术还提供了新的研究可能性,例如研究短突变、基因组重排、融合转录本(fusion transcripts)以及基因组中的 RNA 转录编辑(trans-editing)或转录相互作用(trans-interactions)。第 3 章将详细介绍这些技术。如今,一张微阵列在几小时内可以提供几十万次测量(从几千次增长到五年内的一千倍以上)。相比之下,一次 NGS 实验可以在不到一周的时间内输出多达十亿条序列读取(sequence reads),生成数百 GB 的数据(序列调用和质量信息),更不用说 TB 级别的原始数据(图像)和分析结果(比对和解释)。更令人惊讶的是,这种趋势的加速并未停止,单分子技术(single molecule techniques)和无激光测序芯片(laser-free sequencing chips)有望进一步提高测序的通量并降低设备和耗材的成本(参见第 3 章)。在不久的将来,我们可以预见基因组测序将成为医学实践中的常规手段,把生物学推入 PB 时代,并且加剧对高性能存储和计算能力、生物信息学(bioinformatics)和计算系统生物学(computational systems biology)算法及工具的需求(信息学和生物信息学方面的内容见第 4 章)。

1.3.4 癌症研究与国际数据提供者联盟

癌症研究不可避免地受到生物技术革命的影响。两个主要的努力可以说明这一现象。2006 年,美国国家癌症研究所(National Cancer Institute, NCI)和美国国家人类基因组研究所(National Human Genome Research Institute, NHGRI),这两个隶属于美国国立卫生研究院(National Institutes of Health, NIH)的机构,启动了癌症基因组图谱计划(The Cancer Genome Atlas, TCGA),该计划旨在破解超过 20 种不同癌症的肿瘤基因组和表观基因组的变异。2008 年,国际癌症基因组联盟(International Cancer Genome Consortium, ICGC)成立,这是由美国、加拿大、欧洲(法国、德国、英国、意大利、西班牙)、中国、印度、日本和澳大利亚共同发起的行动,目标是建立来自 50 种不同癌症的 25,000 个肿瘤的分子图谱。在这两个计划中,样本均需具备相关的临床特征,并且还应对宿主的基因组进行测序,肿瘤的分析将涵盖基因组、转录组和表观遗传(DNA 甲基化)的各个方面。两个联盟都同意尽快将他们的数据向科学界开放。

1.4 癌症是一种异质性疾病

1.4.1 癌症的异质性

几乎人体的所有组织都可能受到癌症(cancer)的影响。然而,“癌症”一词实际上指的是各种不同的疾病。不同部位的癌症当然存在显著差异,即便是针对同一器官,癌症的异质性在多个层面上也是普遍存在的。
癌症异质性的第一个层面是形态学的。例如,病理学家(pathologists)——那些在治疗前通过显微镜检查肿瘤样本的医生——将乳腺肿瘤分类为 18 种不同类型(De-Vita et al., 2008)。即便在相同的乳腺癌类型之间,患者之间的差异也非常显著。不同肿瘤类型之间当然存在明显的差别,但在个体水平上进行临床分析时,常常很难甚至不可能给出确切的诊断和预后(prognosis)。
第三个层面是分子层面的异质性:在过去的十年里,通过分子谱分析(molecular profiling),使用微阵列(microarrays)和如今的下一代测序(NGS, Next-Generation Sequencing),研究表明从遗传和表观遗传(epigenetic)的角度来看,没有两个肿瘤是完全相同的。当然,同一类型的肿瘤共享一些共同特征,比如重复突变、缺失、扩增、重排和相似的基因表达,但它们也展示出许多遗传差异。这些分子差异也包括肿瘤的微环境(tumour microenvironment),它在肿瘤的进展中起着关键作用,以及肿瘤宿主——患者,其个体的遗传构成也有所不同。
第四个层面的异质性与肿瘤自身有关。虽然肿瘤通常被认为是适应性最强的细胞的克隆性扩增,但许多肿瘤内部也表现出异质性:在动态平衡中并存的多个亚克隆(subclones)各自构成了特定的疾病,并且对其中一些有效的药物可能对其他亚克隆无效,这就解释了肿瘤对治疗的耐药性。
综上所述,虽然正常组织大致相同,但每个肿瘤组织都是以其独特的方式表现出异常。

1.4.2 分解肿瘤的异质性:肿瘤分类

可以大胆推测,分子异质性可以解释形态学和临床表现型的多样性。通过在遗传和表观遗传层面上绘制肿瘤的分子图谱,应当可以为我们提供导致或伴随肿瘤进展的基本要素,并为合理分类肿瘤亚型提供必要的信息。迄今为止主要通过形态学观察定义的分类,也可以通过完整的分子特征化(molecular characterization)来实现,甚至可以更好地实现。这些信息或许不能完全替代显微镜观察,但一定可以补充显微镜的分析。
这个问题远不仅是对观察结果进行整理的智力挑战。从概念上讲,它提供了一张病理的地图,便于我们进行推理并提出假设,从而理解病理的本质及其背后的生物学原理。在实际操作中,它对患者的治疗方案有着巨大的影响,肿瘤类型的图谱(atlas of tumour types)构成了肿瘤科医生(oncologist)日常的工具。第 5 章将详细探讨这种肿瘤分类的实施方法。

1.5 癌症需要个性化医学

1.5.1 个性化医学的定义

个性化医学(Personalised Medicine)可以定义为一种将患者的医疗保健量身定制为其个人特征的医疗实践模式。这样定义的话,可以说传统医学也会考虑患者的特征,但个性化医学的理念不同于主要基于参考治疗的传统医学。传统医学中的参考治疗是基于大量患者的经验制定的,一旦验证成功,通常被视为治疗任何新患者的通用解决方案。个性化医学则承认每位患者的病理情况都是独特的,这种独特性决定了治疗的选择。对癌症而言,没有一种治疗方案适用于所有患者。个性化医学通常(但并非总是)基于患者的遗传背景。在癌症的背景下,它可能基于患者的个体遗传背景,也可能基于肿瘤的基因组和表观基因组特征,或患者的生活环境。个性化医学可以应用于预防性医学和治疗性医学。
预防性医学的目标是预防疾病的发生或通过早期监测检测疾病。监测可以根据患者的个人特征进行调整,例如生活方式(暴露于风险因素)或家族遗传病史。例如,在乳腺癌中,BRCA1 和 BRCA2 基因可用于评估个体风险并调整监测计划。
当疾病已经发作并被诊断时,治疗性医学则适用。其目标是避免对患者无益的治疗,并在疗效和患者舒适度方面优化治疗策略。特别是,个性化治疗性癌症医学的一个重要目标是避免或减少因患者的遗传背景而可能面临的副作用风险。

1.5.2 选择适当的治疗:预测和预后

许多癌症药物在对抗肿瘤方面的疗效有限。在许多情况下,治疗分子并不适用于相当一部分患者,而肿瘤科医生却没有办法事先区分出响应者和非响应者。如果初始治疗失败,就需要尝试另一种分子的二线治疗。目前,预测最可能有效的治疗策略仍然困难甚至不可能。这种状况导致治疗延误,患者痛苦,甚至因无效药物的副作用导致死亡,还造成了经济浪费。对癌症治疗的结论非常清晰:不能期望某种治疗对所有患有某一特定类型癌症的患者都有效。这种临床异质性的原因在一定程度上是已知的,很大程度上与癌症的生物学异质性有关,没有两个肿瘤是完全相同的。当然,这种异质性很大程度上是由遗传决定的:肿瘤进展的方式在很大程度上根植于肿瘤的分子特征。
设计一种分类新肿瘤病例的程序通常是通过使用已知结果的病例,建立预测规则,评估其性能并将其应用于新肿瘤。然而,这个简单框架面临许多障碍:方法学(例如,如何构建一个在新病例上表现良好的稳健程序?),技术性(如何从床旁到分析标准化样本准备?)以及生物学上的问题(一个肿瘤通常不是遗传上均一的,可能包含不同的亚克隆,其混合可能模糊预后用的整体测量)。
尽管如此,将肿瘤的遗传特征与相应的临床表现型联系起来,提供了一种预测对某种治疗分子响应并为患者提供最佳治疗的方法。自微阵列技术(microarray technology)问世以来,这一想法成为可能。这是从肿瘤的分子谱(主要是转录组层面,但也包括基因组和表观基因组层面)衍生决策规则的众多尝试背后的原理,以帮助临床肿瘤医生设计最佳和个性化的治疗方案。这些所谓的基因特征(gene signatures)目前已被用于某些类型乳腺癌的临床工具,例如 Agendia 基于 Agilent 的 70 基因 MammaPrint®,即阿姆斯特丹特征(Amsterdam Signature, van't Veer et al., 2002; van de Vijver et al., 2002),Veridex 的 76 基因特征,即鹿特丹特征(Rotterdam Signature, Wang et al., 2005; Foekens et al., 2006),Genomic Health 的 21 基因 RT-PCR 为基础的 Oncotype DX™(Cobleigh et al., 2005; Hornberger et al., 2005)和 41 基因表达集(Ahr et al., 2001, 2002)。尚不清楚这些测试是否预示了个性化医学新策略的兴起。基于其所使用的基因表达谱中有限的信息,可能是无法完全满足需求的。这些问题将在第 6 章讨论。

1.5.3 设计个性化治疗方案

高通量技术(high-throughput technologies)的出现正在彻底改变癌症医学的格局。微阵列技术已用于癌症预后的临床应用。下一代测序(NGS)、蛋白质组和代谢物谱分析也为临床应用开启了新的可能性。这些技术将在第 3 章中介绍。
如今,NGS 使得可以以相对较低的成本(2012 年约为几千欧元)测序肿瘤和患者的基因组,并利用这些信息为患者护理做出决策。许多应用已经被设想,其中一些正在临床试验中进行。例如,选择一种蛋白激酶抑制剂的治疗分子可以根据肿瘤的突变谱完全合理化,步骤如下:列出影响肿瘤的所有突变,选择那些可能具有破坏性后果的突变,并基于此开具治疗分子。这种方法已被测试,并在生存收益方面获得了令人鼓舞的结果(Hoff et al., 2010)。可以预见,不久的将来,患者将更系统地纳入临床试验,以从不断扩展的蛋白激酶拮抗剂或其他可用靶向分子中选择合适的药物。NGS 的其他应用还包括检测融合转录本、基因组重排、肿瘤中的甲基化谱或在血液或淋巴中寻找循环肿瘤细胞(Circulating Tumour Cells, CTC),从而在不进行活检的情况下促进预后和治疗选择。
为患者提供靶向缺陷基因产物的治疗分子无疑是一种前景广阔的方法,已经带来了成果。但这些分子靶向治疗同样存在其局限性和失败之处(Gonzalez-Angulo et al., 2010)。癌症的稳健性,无论是基于信号传导通路的互作、补偿性途径、反馈机制(无论是正常细胞中存在的,还是肿瘤细胞获得的),还是肿瘤的异质性,往往导致患者缺乏响应。一些治疗的靶外效应和高毒性也是导致失败的原因。另一个根本问题在于制定策略所依据的分子数据的代表性:如果数据来自原发肿瘤的活检样本,可能不足以治疗转移性肿瘤,或可能出现新的突变,进而妨碍策略的有效性。
因此,在个体患者的信号网络功能及其特异性方面进行建模,是实现完全知情和合理化的个性化肿瘤治疗的下一步。其目标应是预测对肿瘤细胞增殖、迁移和死亡的影响,识别复发的原因,提出同步的补充治疗或二线策略,并预测药物对正常细胞的不良影响。

1.6 什么是系统生物学?

定义一个新的科学领域总是一个困难的任务。年轻的学科边界模糊,主题迅速发展。现有的科学社群加入新领域,带来不同的影响,有时以意想不到的方式塑造着该学科。系统生物学(systems biology)不例外:它现在在许多情境中被使用,因此很难给出一个简单的定义。以下尝试总结了系统生物学方法通常相关的主要特征,并归纳出在该学科初期的十年中形成并存续的两大定义类别。

1.6.1 系统生物学的操作性定义

科学领域可以通过其研究范围和方法来定义。对于系统生物学,范围是生物学整体。许多系统生物学的定义将该学科与分子生物学联系在一起,尽管也有一些更广泛的定义,甚至将系统生物学根植于早期试图从更高层面描述生物现象的尝试中,如动物心脏和血液运动的研究(Auffray 和 Noble, 2009)。即便将系统生物学与分子生物学联系在一起,它的目标也是解释更高层次的特性,例如细胞命运、器官功能或个体表型。这就是该学科的一个核心特征:通过多层次的描述对生物现象进行建模,以解释高级属性。这通常意味着对生物网络(如信号通路或代谢通路)的建模。通常这些网络由几十到数千个节点(基因、蛋白质、小分子等)和相互作用组成。某些节点可能具有特定角色:例如,枢纽节点(hubs∗)直接连接许多其他节点,负责协调响应刺激;另一个例子是路由节点(routers∗),它们作为网络不同部分之间的瓶颈。然而,要理解网络特性并不能通过研究个别元素来完成,而需要整体方法。只有这样才能预测网络的行为(它会促使细胞增殖?还是死亡?以及如何实现?)。换句话说,过去几十年生物研究中占主导地位的逐基因还原主义方法在生物网络的背景下不再适用。这些在基因层面无法获得的网络特性,只有在全局层面上才能理解,通常称为涌现特性(emergent properties∗)。一个典型的例子是正常细胞或肿瘤细胞的稳健性(即细胞在环境波动下保持其功能的能力),该主题将在第 9 章讨论。
无论我们选择哪种系统生物学的定义,系统生物学的一个恒定特征是其跨学科的本质,汇集了数学家、生物学家和临床医生,围绕一个生物医学问题共同努力。这甚至是系统生物学团队构建的一个关键特征,以多样化的技能为基础,在实验和理论层面协调努力。这种结合植根于数学在支持其他科学(特别是物理学和化学)解释宇宙方面的显著且无可比拟的效率,以及数学定律在实现对日常生活产生影响或超越我们认为绝对的界限方面的成果。
有人反对说,生物学中的数学建模只能带来有限的理解,因为生物学本质上过于复杂。然而,这种观点很容易被反转:正是因为生物学的复杂性,单靠直觉是不够的,而需要数学建模的抽象和严谨。复杂性还意味着还原主义的方法不足以理解研究对象,需要采用另一种方法。系统生物学可以被定义为一种尝试,旨在解码细胞及更高层次生物系统的复杂性。
海量数据的分析需求是建模应该补充甚至在许多情况下替代直觉的另一个原因。系统生物学这个词与人类基因组序列的解码几乎是同时出现的,学科的很大一部分(尽管不是全部)在某种程度上都采用了高通量分子和细胞生物学数据。实际上,高通量技术使得可以在某个层面上对生物系统进行完整的描述(例如基因组或转录组)。这些数据清单以及它们的完整性,并不是生物学知识,本身也不足以解释和解读生物系统。因此,数学建模被用来从这些大量观察中提取一致且有用的知识,超越单纯的现象学描述。其目的有三:对这些事实进行分类、解释系统的功能并预测系统的新行为。因此,系统生物学的方法可以被定义为生物学中的经典科学方法(Ayala, 1968)。
此外,还应认识到数学建模所能提供的一切:首先,它提供了一种明确的语言来描述知识;其次,它能够组织和分类生物学现在正在产生的大量数据,实现理解的第一步;第三,它为生物系统的推理提供了框架,最终可以提出假设并设计实验来验证这些假设。通过实验验证和模型改进的迭代循环,模型可能变得具有预测能力,甚至能够解释系统的行为。这些方面将在第 7 章和第 8 章中详细描述。最后,数学工具还可以引入新的概念,或为直觉提出的概念提供正式的实质。在癌症系统生物学的背景下,稳健性(robustness)是一个很好的例子,说明了数学的这种功能。第 9 章将详细讨论该主题。

1.6.2 系统生物学:是数据驱动还是模型驱动?

系统生物学的定义已经提出了多种解释,主要可以分为两类:数据驱动(data-driven)方法和模型驱动(model-driven)方法。
在过去,计算分子生物学研究以数据挖掘(data-mining)方法为主,目的是在基因组序列等大型数据集中寻找规律。一个典型的例子是解码基因的结构及其组成的基因组所有元素(内含子、外显子、启动子、增强子、绝缘子和其他调控序列)。这些方法使用了诸如隐马尔科夫模型(Hidden Markov Model, HMM)和支持向量机(Support Vector Machine, SVM)等复杂的统计方法。它们所生成的模型是启发式的,对系统内部机制的知识要求较少,特别适合在不确定情况下使用。
第二类方法基于模拟生物系统动态的模型,通常将生物系统描述为一个由相互作用节点(如基因、蛋白质、小分子、复合物等)组成的网络。网络中的节点和边反映了我们对系统各部分局部功能的生物机制的认识。通过网络的全局建模,可以模拟系统的行为。值得注意的是,根据所模拟的系统及所需或能达到的精确度水平,有许多不同类型的网络。
将系统生物学方法分为统计和动态两大类当然是对现实的简化,还忽略了中间方法,例如将先验知识融入统计学习的方法(第 6 章中介绍)。从历史的角度来看,这两种方法也可以体现系统生物学作为一门学科的发展历程。系统生物学在新千年初作为一门科学学科被提出,并由两个学派独立定义:
  1. 一方面,Leroy Hood 和同事定义了系统生物学为一种务实的方法,包含四个步骤(Ideker et al., 2001):第一,大规模数据收集以描述系统的所有成分(例如在 DNA 层面、RNA 层面等);第二,系统成分被系统性地扰动(通过遗传手段、药物或环境控制)并监测,若可能的话在全球范围内进行(通常检测所有基因);第三,构建模型并反复优化,以使其预测符合实验观察;最后,设计并执行特定的扰动以测试模型并区分不同的假设。
  2. 另一方面,以北野宏明(Hiroaki Kitano)为代表的另一个学派将系统生物学定义为研究生物系统动态行为的科学,关注其成分的相互作用。其核心思想是,这些行为,尤其是生物功能,是从成分间相互作用中涌现的系统内在特性,无法通过对单个成分的研究揭示。例如,生物系统的稳健性,即系统在外界扰动下维持状态和功能的能力,是此类特性的典型例子。
第一种方法可以视为一种自下而上的、数据驱动的务实生物学家方法,其中模型从数据中构建。数学工具是启发式的,整合了观察结果。其风险在于停留在现象学层面,无法在观察之外做出更深入的预测。而第二种方法则是数学家更偏向自上而下的、模型驱动的方法,捕捉知识于模型中,再用现实检验该模型。这里的风险可能在于构建优美的数学抽象,但缺乏生物学影响。

1.6.3 系统生物学:另一种定义

本书的作者认为,计算系统生物学应该被定义为一种尝试,旨在调和以上提到的两大学派,这也可以追溯到实验生物学家和理论生物学家之间长期存在的分歧。生物系统的近乎全面的描述的可获得性应使这种调和在不久的将来成为可能。
科学学科还可以从其最终目标来定义,即使这种目标在可预见的未来似乎遥不可及:系统生物学的目标是构建任何生物体甚至生态系统的虚拟模型,可以在计算机上进行实验,从而加速假设验证,避免体内和体外实验的局限性。在医学上的一个吸引人的应用当然是虚拟患者,在此基础上可以设计和测试创新的治疗策略,并在实验验证前进行计算模拟。
2008 年,日本和英国研究人员在两个主要资助机构(JST 和 BBSRC)的主持下的联合会议上迈出了第一步,发表了《东京宣言》(Tokyo declaration)。宣言指出,系统生物学领域的进展已经使其构成生物学中的一个新范式。这一范式转变对于理解分子生物学的全部成果是必要的,尽管这些成果令人印象深刻,但在扩展我们对生命的理解以及将这些知识转化为在健康、环境或农业领域的实际应用方面还显不足。因此,制定系统生物学的路线图应当是优先事项。宣言中建议努力“生成基于分子的人类生理计算表示”,采用分级方法从通路、器官到生物体开始,从动物模型出发,目标是建立一个“硅基人类”:“系统生物学的最新进展表明,现在是时候启动一个宏大挑战项目,在未来三十年内创建一个全面的、基于分子的、多尺度的计算模型(虚拟人类),能够以合理的准确度模拟和预测对医疗保健相关的大多数扰动的影响。”
另一个例子是“虚拟生理人类”项目(virtual physiological human program),这是一个欧洲的倡议,资助了十五个涉及人类健康不同领域的项目(http://www.vph-noe.eu/):虚拟生理人类的概念是一个复杂的计算建模工具,通过比较个体患者的观察结果,将其与具有相似症状和已知疾病状态的其他患者的大量数据集进行关联。通过处理所有这些信息,该模型可以模拟个体患者对可能的治疗或干预的反应。这种工具不仅能提高对已经患病或受伤患者的治疗质量,还可以用于预防医学,以预测高危人群中特定疾病的发生或恶化,例如通过家族病史。

1.6.4 癌症的系统生物学

我们如何定义癌症的系统生物学(systems biology of cancer)?一些作者已经提出了相关定义,通常强调数据驱动或模型驱动的方式(Kitano, 2003, 2004b;Khalil 和 Hill, 2005;Hornberg 等人, 2006;Gonzalez-Angulo 等人, 2010;Kreeger 和 Lauffenburger, 2010;Sonnenschein 和 Soto, 2011)。在本书中,前文已对癌症和系统生物学进行了定义,将系统生物学方法应用于癌症研究是非常自然的,因为癌症是一种涉及大量相互作用的疾病:信号通路内的相互作用以及通路之间的相互作用(Hanahan 和 Weinberg, 2011),细胞之间的相互作用,以及细胞与微环境的相互作用(Sonnenschein 和 Soto, 2011)。但癌症系统生物学是否还有其他特定特征?
第一个特征无疑是癌症系统生物学的目标:找到干预点和治疗策略以治愈癌症。我们已经指出还原主义方法在全面理解癌症生物学和战胜这种病理方面的相对失败。从认知和应用角度来看,癌症研究需要系统生物学的支持。
在研究癌症的生物和临床方面,系统生物学的一个概念表现出其强烈的相关性,即稳健性(robustness)(Kitano, 2003, 2004b)。任何癌症系统生物学的定义都应提及这一贡献。
癌症系统生物学的另一个特征以及为什么癌症研究比其他生物系统更需要系统生物学的原因与这种病理的本质有关。没有两个肿瘤是完全相同的。每个肿瘤的遗传和表观遗传特征都具有独特性,这使得从一种情况推断至另一种情况(例如假设治疗对所有患者同样有效)成为一种风险。病理条件下生物网络的重组(虽然尚未有精确记录)可能对每个肿瘤都是独特的。在这种情况下,基于患者的遗传构成构建一个模型可以模拟潜在药物的作用,从而在特定患者体内和环境条件下评估疗效并预测可能的副作用。这将有助于节省大量的时间和精力,尤其是在药物开发、临床试验(例如通过计算筛选合适的患者)以及多药治疗策略的设计中。
因此,癌症系统生物学具有“癌症系统医学”(cancer systems medicine)的特性。该概念的早期愿景之一由 Leroy Hood 在西雅图的系统生物学研究所(Institute of Systems Biology)提出,被称为 P4 医学(P4 medicine,其中 P4 代表预测性、预防性、个性化和参与性)。这种方法的要素与其他愿景类似:通过高通量技术对样本进行表征,使用计算和数学工具从数据中提取信息,建模生物调控网络并识别治疗干预点。正如前文提到的,他们采用了基于启发式的、数据驱动的务实方法。该方法的另一特征在于他们对医学实践的根本性变化的预期。目前的医学主要是被动的,医生主要对患者的疾病状态做出反应,几乎不采取措施预防疾病的发生。相比之下,系统医学将成为预测性的,基于个体的遗传构成和环境条件;这将允许进行预防性措施,例如通过调整生活方式或服用预防性药物,避免个体可能面临的高风险疾病。这一理念实际上更早便已提出,预测医学(predictive medicine)一词最早由诺贝尔医学奖得主 Jean Dausset(1980 年)提出。这种新的医学实践有两个结果:首先,医学将变得个性化,根据个体的独特遗传特征量身定制;其次,它将变得参与性,因为其提供了极为广泛的个人健康护理选择,并需要个体与其医生之间的深入交流。
癌症系统生物学的最著名愿景无疑来自 Hanahan 和 Weinberg(2000)。在 2000 年的一篇具有里程碑意义的论文中,他们总结了四分之一个世纪的分子肿瘤学研究,预测了癌症研究范式的重大转变。他们作出如下预言:
“未来二十年,我们将完全绘制出每条细胞信号通路的布线图,能够在现有轮廓的基础上完整呈现细胞的集成电路。到那时,我们将能够应用数学建模工具来解释特定基因损伤如何重编程每种构成细胞类型的集成电路,以表现出癌症。在机制上具有整体性的清晰理解下,癌症预后和治疗将成为一门合理的科学,不再为现有从业者所识别。我们将能够精确理解治疗方案和特定抗癌药物为何成功或失败。我们设想针对癌症的每个标志能力的抗癌药物;其中一些药物,以适当的组合并结合先进技术检测和识别所有疾病进展阶段,将能够防止潜在的癌症发展,而其他药物将治愈现有的癌症,这些都是目前难以实现的目标。终有一天,我们想象癌症生物学和治疗——目前是一块由细胞生物学、遗传学、组织病理学、生物化学、免疫学和药理学拼凑而成的拼布——将成为一门概念结构和逻辑连贯性可媲美化学或物理学的科学。”
令人惊讶的是,他们当时准确地描述了尚未萌芽的癌症系统生物学的崛起。

1.7 关于本书

1.7.1 本书的目标

本书的作者是位于巴黎居里研究所(Institut Curie)的癌症计算系统生物学实验室的成员,居里研究所是一个癌症研究和治疗中心。本书源于我们十年间作为计算生物学家,与实验生物学家和临床医生密切合作的经验。日常的实践使我们观察并参与了癌症研究的许多方面,这些内容在本书中加以总结。我们经历了癌症研究向“大科学”方向激动人心的进展,愿意与读者分享这段经历。多年中,我们逐渐形成了一种信念:癌症研究的未来以及新疗法策略的发展,依赖于我们将生物学和临床问题转化为数学模型的能力,这些模型整合了我们对肿瘤进展机制的知识以及微阵列和下一代测序(NGS, Next-Generation Sequencing)等高通量技术带来的海量信息。
当然,市面上已有许多优秀的书籍介绍了癌症研究中的计算方法,而本书的特色在于:
  • 提供癌症计算系统生物学的概念和方法的全面概述
  • 深入解析某些现有工具背后的计算和设计原理
  • 列出相关的生物信息学资源,适合癌症系统生物学的计算方法
  • 结合实际的生物应用实例
  • 介绍癌症相关网络的动态建模和数据挖掘方法
  • 深入讨论临床方面的问题和生物学问题
本书是由从事共同项目多年的计算生物学不同领域的同事联合撰写的一部自成体系的专著。

1.7.2 本书适合的读者

本书的主要读者群体是越来越多的从事癌症生物信息学和系统生物学研究的研究生、工程师和研究人员,包括学术界以及制药和生物技术行业的从业者。我们的目标是为计算科学和生命科学背景的学生和生物信息学专业人士提供一本教科书和指南。此外,我们希望本书能为数学和计算机科学领域的学生和研究人员提供进入癌症研究的入口,并为生物学和肿瘤学领域的学生和研究人员提供了解计算和建模方法的起点。
本书及其配套网站也可以作为系统生物学和生物信息学教学的核心资源。书中包含每章的主要信息总结、数据和算法练习、应用实例,并提供进一步加深学习的资料链接。
为了确保本书适合广泛的读者,我们尽可能使其内容自成一体,并对读者的生物学、数学或计算机科学知识要求很低。对于熟悉癌症生物学的读者,可以跳过第 2 章,而熟悉高通量技术的读者可以跳过第 3 章。从第 5 章到第 11 章的一些部分介绍了数学方面的内容,可能对没有数学背景的读者来说较难理解,但跳过最技术性的部分并不妨碍理解本书的其他内容。

1.7.3 本书的结构

本书展示了概念、算法方法、生物信息学工具和生物学应用,并附有相应的表格和插图。理论元素被引入并通过实际数据应用加以说明。
每章包含以下内容:
  • 问题概述
  • 主要概念的介绍(也通过专栏强调)和先进的方法;一些章节末尾提供关键概念的列表
  • 现有工具的描述
  • 对具体案例的应用
  • 公共资源(数据和软件)的列表和简要描述
  • 推荐进一步阅读的资料和更高阶内容
  • 知识测试练习(适用于若干章节)
第 1 章,即本章,介绍了本书的主题和编写的原理。定义了系统生物学的总体概念及其在癌症研究中的应用,并提供了简短的历史视角。
第 2 章介绍了癌症分子生物学的基本原理。假设读者熟悉细胞生物学,相关内容在附录中描述。该章描述了在肿瘤进展过程中将正常细胞转化为癌细胞的一系列事件,依次展示了所有癌症共有的特征,称为“标志特征”。
第 3 章介绍了研究癌症的主要高通量实验技术:微阵列、NGS、质谱和细胞表型分析。这些组学技术在过去二十年间出现,使正常和肿瘤细胞的高通量描述成为可能,从而为癌症的系统生物学开辟了道路。
第 4 章概述了系统生物学的生物信息学工具和标准,这些是任何系统生物学项目的必要支持资源。内容包括实验设计、数据标准化和质量控制。该章还介绍了一系列用于计算系统生物学的资源:原始数据存储库、通路和网络数据库,以及描述数据和模型的标准。
第 5 章“探索癌症的多样性”研究了如何通过对大量癌症组学数据的探索性分析揭示癌症在分子水平上的异质性,并揭示支撑这种多样性的生物过程。
第 6 章“预后和预测:迈向个性化治疗”聚焦于预测癌症进展(预后)和治疗响应(预测)的问题。特别讨论了基因特征、构建生物标记的统计学方法、监督分类方法、特征选择方法、验证问题以及在预测模型中包含先验知识的可能性。
第 7 章“癌细胞生物学的数学建模”展示了我们使用正式数学工具进行生物系统建模的动机、目标和方法。展示了两种细胞周期的数学模型示例,使用了化学动力学和逻辑公式。还研究了反馈环的模式。
第 8 章“癌症过程的数学建模”从数学角度回顾了目前关于某些标志特征的知识现状,关注每个标志特征的具体方面作为示例。
第 9 章“癌症的稳健性”介绍了稳健性(robustness)的概念,这是一种典型特性,需要通过计算系统生物学的方法来研究。提供了该领域现有重要观点的综述,描述了生物系统中一般稳健性机制以及癌症稳健性,探讨了稳健性概念在癌症治疗策略中的应用。第 10 章将进一步回顾生物和癌症稳健性的数学原理。
第 11 章“寻找治疗靶标”介绍了发现应对癌细胞的干预措施的数学方法,目标是破坏其致瘤性特征,达到逆转癌性表型或加速癌细胞走向死亡。提出了基于统计技术的数据驱动方法,以及基于网络分析的方法。
第 12 章“总结”试图展望癌症计算系统生物学的前景和挑战,并提到本书故意未涉及的相关研究领域。
附录提供了细胞分子生物学的基本原理,作为第 2 章的前置知识。此外,本书中提到的工具、软件、数据库和重要基因都在附录中汇总。
本书还包含术语表,术语将在正文中以以下形式出现:肿瘤进展∗。
读者可以在以下网站获取配套资料:http://www.cancer-systems-biology.net:
  • 本书中的大部分插图都根据创作共用(Creative Commons)许可 CC-BY-SA 发布。任何人都可以在以下条件下自由复制、分发、传输和改编这些图:必须引用本书作为图的来源;如果图被更改或转换,则可以仅在 CC-BY-SA 许可下发布结果作品。
  • 教程概述了可以在高通量数据上执行的分析场景。作为示例,展示了乳腺癌数据的基因表达模式和 DNA 拷贝数改变的特征化。提供了脚本和数据,读者可以在自己的计算机上重现分析。

生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
 最新文章