生物医学大数据不仅是生物医学领域开展数据密集型研究的基石,成为与人口健康、社会发展和国家安全相关的战略资源,而且还是利用人工智能赋能“大健康”产业发展的核心生产要素之一。如何把海量的生物医学数据转换成能发挥研究基石和产业要素作用的“生物医学大数据”,即实现其“价值”,是长期以来生物医学领域的相关人员、机构乃至政府部门都深感“机遇与挑战”的大问题。但是,该问题基本上未被全面、系统、深入地加以讨论并探索出解决途径。究其原因,可能是源于该问题的核心,既与海量生物医学数据与生俱来的“跨尺度、多源性、高维度、细粒度、异质性复杂体系”的“低价值密度”的数据特征有关,又与数据的产生者、收集者、使用者之间在“管——安全与私密,用——投入/ 产出,放——竞争/ 合作”等一系列“复杂利益关系”的社会特征有关。2016 年,当时的中国科学院上海生命科学研究院,依托其所属马普计算生物学研究所,秉承“面向生物医学科技前沿、面向国家生物安全需求、面向生物医药产业主战场、面向人民生命健康”的初心,以“先投入战斗,然后再见分晓”的只争朝夕精神,建立“生物医学大数据中心”,在整整7 年的时间里,努力探索解决这一问题的途径,获得了一些体会和经验。他们特别认识到对于生物学、健康医学等数据而言,标准化规范整合与开放共享是使数据“要素化”的重要环节;而且只有秉承“安全管理、信息共享、标准增值、技术创新、尊重产权、高效利用”的理念,将生物、医学、工程、技术等多学科交叉融合并在工程技术层次上紧密协作,才能形成落实这一环节的数据治理体系,源源不断地供给高质量的生物医学大数据。
鉴于生物医学大数据这几年实践中形成了多方面的合作伙伴,本刊特委托他们组织“生物医学大数据”专辑,邀请我国在该领域长期从事数据基础性工作的研究团队从多个视角向读者介绍大型数据中心的建设经验及相关数据技术的进展,回顾健康与疾病人群队列研究历史及趋势,总结微生物组大数据研究动态,以期通过梳理生命科学、环境科学、公共卫生等领域的大数据进展,为生物医学大数据科学相关的工程、技术与研究提供新思路,促进我国高质量的数据供给与应用。
摘 要:基因组学/ 系统生物医学、转化医学、精准医学时代以来形成的生物医学大数据不仅是生物医学领域开展数据密集型研究的基石,成为与人口健康、社会发展和国家安全相关的战略资源,而且还是利用人工智能赋能“大健康”产业发展的核心生产要素( 常简称为“数据要素”)。生物医学数据元素具有与生物和医学相关的“跨尺度、多源性、高维度、细粒度”等异质性复杂体系特征,因此,具有4V 特征(Volume、Velocity、Variety、Veracity) 的海量生物医学数据的数据元素必须经标准化规范整合并供共享分析,才能将海量生物医学数据质变转化为生物医学大数据,发挥生产要素的功能,实现生产要素的价值。这个价值释放的“要素化”过程,面临着特有的机遇与挑战,特别是已经成为生物学与健康医疗大数据最核心的基础的多组学及多模态数据,与欧美相比,我国数据“多而不强”,由于开放共享程度低、集中程度不高,难以评估数据质量。数据库是生物医学数据共享的主要载体,其数据来源和共享模式直接影响数据要素的价值释放过程。数据中心是数据库的建设及运维主体,也是各类数据元素转换为适用各类应用场景的数据要素的重要参与者和推动者,处于数据要素化不可或缺的核心环节。在从数据元素转换到数据要素的过程中,我们面临着存量数据规模与数据规范化集成的治理能力不匹配、已开放的数据规模与数据分析挖掘的治理能力不匹配的挑战,需要在数据、数据库、数据中心三个层面上加强数据治理和数据共享等基础性工作。我们建设了1( 套 整合交互共享导向的数据资源服务体系)-2 ( 个 标准化数据分析平台)-3 ( 种 科学/ 技术问题驱动的健康医学数据治理平台)-X ( 类 面向应用场景的智能分析服务体系) 的生物医学大数据技术体系,秉承“安全管理、信息共享、标准增值、技术创新、尊重产权、高效利用”理念,努力将数据中心从成本中心转换为价值中心,可为生物医学大数据“要素化”提供借鉴。
摘 要:高通量检测技术的快速发展催生了海量的多组学数据,数据驱动型研究规模正逐步超越传统假设型研究。不同层次组学数据的组合,通过对系统生物学和疾病发展更深入和全面的解读,持续改变生物医学研究方式。同时,多组学数据庞大的数据规模、异质的数据特性,以及强烈的数据共享内源性需求,都推动组学数据向规模化、平台化、标准化共享的方向发展。该文首先介绍了代表性的多组学平台和各组学数据的特点,接着以多维组学数据百科全书NODE 为例,从多组学数据融合和多组学数据安全共享两方面对相应的方法和技术进行了细致的阐述,并展望了多组学数据平台未来的发展方向。
摘 要:随着研究问题的深入和技术的发展,蛋白质组学研究逐渐迈向大数据时代。数据规模的扩大可以为研究人员发现更稳定可靠的结论提供坚实的基础,但也对数据的存储和分析等环节提出了更多的挑战。本文首先介绍了蛋白质组学数据的特点,然后主要从蛋白质组学大数据相关的数据库和分析方法两方面总结目前的研究进展,最后对该领域存在的挑战和机遇进行展望。
摘 要:在介观尺度上,小鼠大脑图像的数据量可达到10 TB 量级,人脑数据量则达到惊人的几十PB,从海量脑图像数据中识别和分析神经元的形态是一项复杂且具有挑战的任务。当前研究人员提出了基于传统机器学习和深度学习的神经元识别算法,其中传统机器学习方法存在迁移、泛化能力较差的问题,基于深度学习的算法虽然可以通过海量精确标注的训练数据提高模型的泛化性,但缺乏精确且丰富的图像标记数据集,因此同样存在过拟合和泛化能力弱等问题。本文提出了一种基于深度学习的弱监督神经元识别方案,仅需要少量有标注的数据,即可通过迭代策略获取海量神经元图像的精确识别结果,具备较强的泛化能力,并最大限度减少人工参与量。该方法在fMOST、BigNeuron 等数据集上进行了实验,自动识别精度F1 值分别为0.9247 和0.8318,优于其他对比的神经元识别算法。
摘 要:大数据技术推动了生命组学数据的爆炸式增长,生命科学研究进入大数据时代。大型人群队列研究依托大数据技术获得了重要突破,为生命科学和精准医学研究提供了宝贵资源,推动着预防医学模式发生革命性变化。以大数据技术为导向,人群队列研究规模空前扩大、学科交叉创新层出不穷,如何充分高效地利用人群队列资源、实现队列间的互联互通与共享,也是队列研究亟待解决的难题。该文将重点分析大数据时代特征下国内大型人群队列研究的发展特点,并提出其未来发展趋势及面临的挑战。
摘 要:少数民族遗传资源是开展人类多样性研究、探索民族演化与生命健康的核心要素。近年来我国针对少数民族群体,在民族源流和群体遗传、遗传易感性与疾病风险差异、自然选择与遗传多态性等领域开展了多项研究。《人类遗传资源管理条例》的出台也进一步规范了针对少数民族的遗传资源采集、保藏与调查研究。本文从研究内容、法律实践、科学发现等方面系统回顾了少数民族遗传资源调查研究的相关进展,并对流调采样、样本处理和共享利用等核心环节的实践要点进行了总结与分享。
摘 要:卒中是危害人类健康的主要疾病之一,但卒中可防可控。队列研究在病因学研究中具有不可替代的地位和作用,可为疾病的防控提供证据支撑。在卒中领域,国内外已经有一些应用队列研究的实例,并取得了一定的成果,对于卒中防控具有重要的医学价值和社会价值。该文对经典的卒中社区队列和临床队列研究进展进行综述,为我国未来卒中队列建设的方向提供思路。
摘 要:国家微生物科学数据中心成立于2019 年,以中国科学院微生物研究所作为依托单位。中心数据资源总量超过6 PB,数据记录数超过52 亿条,数据内容完整覆盖微生物资源、微生物及交叉技术方法、研究过程及工程、微生物组学、微生物技术以及微生物文献、专利、专家、成果等微生物研究的全生命周期。国家微生物科学数据中心通过建设一系列重点数据库构建系统全面的国家微生物大数据体系,涉及全球微生物菌种分类及研究领域、病原微生物研究领域、微生物组研究方面及真菌研究领域,为全球微生物学相关的工作者提供信息服务和交流平台。在新冠疫情期间,中心开发新型冠状病毒国家科技资源服务系统,第一时间建立了全球科学数据发布及共享平台。研发的新型冠状病毒变异评估和预警系统(New Coronavirus Variation Evaluation and Early Warning System, VarEPS),是全球首个对SARS-CoV-2 基因组已知变异及虚拟变异进行多维度风险评估和预警的系统。中心以世界微生物数据中心(World Data Center for Microorganisms, WDCM) 为平台,倡导全球微生物菌种保藏目录(Global Catalogue of Microorganisms, GCM),发起全球微生物模式菌株基因组和微生物组测序合作计划(Global Microbial Type Strain Genome and Microbiome Sequencing Project, GCM 2.0),有效促进了全球微生物资源的共享利用。
摘 要:环境微生物学是生命科学与地球科学的交叉学科,近年来发展迅速且得到学术界和社会的广泛关注,但现有数据共享平台难以同时支持微生物数据和地学空间数据的高效组织和管理。针对该问题,在第二次青藏高原综合科学考察研究任务五专题三支持下,兰州大学建设了泛第三极环境数据中心,实现了Web 环境下16S rRNA 基因、宏病毒组和宏基因组等环境微生物数据与相关环境因子数据的集成、管理和查询,并以地图形式直观地展示样点空间分布,为用户提供了便捷、易用的数据共享平台。中心未来将继续完善平台的在线数据可视化和分析功能,以更好地服务于环境微生物和全球变化研究。
摘 要:湖泊微生物维系着湖泊生态系统功能的平衡,是生物地球化学循环的重要驱动者和全球变化的调节器。伴随着现代分子生态学技术革新和大数据时代的快速发展,湖泊微生物群落组成、驱动要素以及介导碳循环功能等方面的研究取得长足进展。本文首先回顾湖泊微生物的发展历程,发现该领域的研究备受瞩目,文章发表数呈逐年增加的态势;随后,综述湖泊微生物群落的主要物种组成,探讨了微生物群落沿纬度、海拔和水深等自然地理梯度的分布格局,揭示其对温度和盐度等环境因素的响应特征,总结微生物介导的湖泊碳固定、碳降解和甲烷循环等典型生物地球化学过程;最后,重点展望湖泊生态系统中的物种-面积关系和距离衰减规律等基本生态学理论、跨生态系统之间的相互作用、生物多样性与生态系统功能的关系,以及新兴污染物等研究领域的前沿热点科学问题。相关综述成果为湖泊微生物多样性保护和全球碳减排决策提供理论参考。
摘 要:近年来,我国载人、无人深潜技术和深海装备领域的重大突破,使得大范围、系统性地获得深渊沉积物和水体样本成为了可能。以测序技术为代表的多组学技术的大力发展,以及人工智能在生命科学领域的前沿探索,使得深渊微生物的研究迎来了大样本量、大数据量、多数据类型和多学科交叉的大数据时代。充分利用大数据所提供的优势解析深渊微生物所涉及的生物学和生态学科学问题,并进一步通过微生物大数据为海洋学和地球科学提供新的线索,是新时代所面临的关键机遇与挑战。该文对深渊微生物研究的历程与现状进行了小结,并通过对标国际人类微生物组、地球微生物组以及Tara Oceans 计划等其他先行的微生物大数据研究范例,对大数据时代开展深渊微生物研究的新思路和新范式进行了梳理和展望。