导 读
随着技术的不断发展和数据的持续积累,人工智能在生命科学领域发挥越来越重要的作用。目前,人工智能已经应用于分子、细胞、系统和个体等多层面的生命系统研究,为科研人员提供了强大的工具和方法,提高了研究效率和准确性;同时,也为生命健康、动物科学、工业科学和农业科学等领域提供了新的解决方案。本文旨在探讨人工智能驱动生命科学研究的发展态势,重点介绍近年来人工智能在生命科学领域的最新进展,分析其在生命科学研究中面临的机遇和挑战,并提出相关建议。
李丹丹1,马征远1,张博文1,江 源1,冯心宜2,史 彤3,毛开云1*
(1 中国科学院上海生命科学信息中心,中国科学院上海营养与健康研究所,上海 200031;2 上海生物医药公共技术服务有限公司,上海 201203;3 上海市生物医药科技发展中心,上海 201203)
在生命科学的演进过程中,具有历史性意义的突破往往源于不同学科之间的交叉与深度融合。这种跨学科的交汇为生命科学注入了全新的研究视角,丰富了其知识体系,并推动了研究工具的创新。这不仅在理论上拓展了学科边界,更在实践中为人类提供了更加深入认识和理解生命现象的新途径。当前,人工智能作为前沿技术的突破,为生命科学研究带来了新工具、新技术和新方法。这些新方法使得生命科学研究不再局限于传统的实验方法和数据分析,而是能够借助人工智能的高效性和精准性,对海量的生命数据进行分析和挖掘,从而更深入地揭示生命的奥秘。同时,人工智能的运用也驱动着生命科学研究范式的变革,使得“数据驱动”和“假说驱动”得以实现更深程度融合,提高了研究的效率和准确性。
自2023 年以来,人工智能在生命科学研究领域的驱动作用得到了越来越多的重视。随着科技的不断进步,人们对生命的本质和规律有了更深入的认识,而人工智能在其中扮演了重要角色。通过大数据分析和机器学习等技术,人工智能能够帮助科研人员从海量的生命科学数据中提取有价值的信息,加速研究进程并提高研究效率。同时,人工智能还可以通过模拟实验和预测分析等方式,为生命科学研究提供更加准确和可靠的实验结果和数据支持。人工智能技术的运用,已经越来越深入渗透至生命科学的方方面面。
1 人工智能与生命科学的交汇
透过生命科学的发展历程,可以清晰地看到交叉技术所扮演的重要驱动角色。在18 世纪,光学技术的突破使得人类能够首次观察到生物的微观组织,从而打开了生命科学探索的新篇章。到了19世纪,化学技术的进步让人类能够更深入地理解生物的物质组成,为后续的生命科学研究提供了宝贵的理论基础。进入20 世纪,成像技术的崛起使得人类能够观察到DNA 的双螺旋结构,这一发现无疑为生命科学领域带来了前所未有的突破。进入20世纪末,纳米技术的兴起使得基因测序、基因合成等技术逐步发展,从而为未来的生命科学研究开辟了新的方向。如今,人工智能作为前沿技术领域的代表,与生命科学这一前沿学科的交汇,正在引领一场新的科技革命。这种跨学科的融合创新,为人类社会的发展带来了无限的可能性[1]。
1.1 生命现象复杂性及其对新工具的需求
生命现象,作为一种独特存在,其复杂性和多样性令人惊叹。从分子层面到细胞、组织、器官、个体、种群、生态系统,甚至到地球生物圈,每个层级都相互关联但又展现出独特的规律。这种多层级的特性为研究者提供了丰富的探索空间,也为研究者带来了巨大的挑战。
生命现象的分子层面是其存在的基础。分子层面的生命现象包括生物大分子的合成、降解,以及分子间的相互作用。这些相互作用形成了生命的基石,为生命的进一步发展奠定了基础。细胞层面则是生命现象的核心,细胞的生长、分裂、死亡等过程都是生命现象的重要组成部分。组织、器官、个体这三个层次则是生命现象在组织结构和功能上的体现,它们相互协作,共同完成生命的各种生理功能。在个体层面,生命现象表现为生长、发育、进化等过程。生长是生物体体积和质量的增加,发育是生物体从出生到成熟的过程,进化则是生物种群在长时间内逐渐演变的过程。这三个过程相互交织,共同构成了个体层面的生命现象。种群层面则是研究生物个体在群体中的分布、数量、相互关系等现象,生态系统层面涉及生物与环境的关系,包括生物群落、物种多样性、生态位等,是生命现象在自然环境中的体现。地球生物圈则是所有生物与其生存环境相互作用的整体,它是生命现象的最大尺度,也是最为复杂的部分。
生命现象的复杂性不仅体现在其多层级、跨尺度的特征上,还表现在其多样性的表现形式。生命现象的多样性包括生物体的形态、生理功能、行为习惯等,这些多样性在进化过程中逐渐形成,是生物适应环境的结果。这种多样性使得生命科学研究充满了挑战,需要在不同层面上进行深入探讨。生命现象的复杂还体现在其多维度特征上。生命不仅仅是生物体的存在,还包括了生长、发育、进化、生态、生理、心理等多个方面。要在这些多维度上全面探讨生命的规律,就必须具备对多个学科的了解和掌握,才能更深入地理解生命的本质和奥秘[2]。
理解生命现象的复杂性,就离不开大规模、多维度、异质化的数据解析。从分子、细胞到整个生态系统,生命科学所涉及的层次丰富多样,每个层次都形成了庞大的数据网络。这种多层次的数据产生于对生命现象全面深入研究的需要,但也带来了海量而复杂的数据集。各种高通量技术的应用,如基因组测序、蛋白质结构解析、细胞代谢通路分析,能够以前所未有的深度和广度了解生物系统的运作。面对如此庞大的数据集,生命科学研究者需要运用人工智能技术对其进行处理和解析。由此,研究者能够从海量数据中提取有价值的信息,揭示生命现象的模式和规律,推动生命科学的进一步发展。在更深入地理解生命现象的过程中,专业技术和工具的应用将成为不可或缺的一部分。这些技术和工具不仅使研究者能够更好地处理和分析数据,还能够更全面、更深刻地揭示生命的奥秘[3]。
1.2 人工智能驱动的生命科学研究能力提升
生命现象的多样性和复杂性使得研究生命科学变得极具挑战性。人工智能驱动生命科学研究发展的底层逻辑,是通过对大量数据的分析、处理、挖掘和应用,为生命科学研究提供更高效、更精准、更自动化的工具和方法,帮助科学家们更深入地了解生命的本质和规律,加速生命科学研究的进程。
人工智能可以帮助快速处理海量的、多维度的生命科学数据。生命科学数据往往具有高度复杂性和多样性,其中蕴含着许多隐藏的模式。人工智能通过深度学习、机器学习等技术,能够自动识别数据中的关联性,提取有价值的信息。这为科学家们提供了重要的线索和知识,帮助他们更深入地理解生命现象的本质,发现其中的规律和特征。人工智能的应用不仅仅局限于数据的处理,它还能够为科学家们提供新的研究思路和方法。通过分析数据,人工智能可以生成预测模型、推断潜在关系,甚至发现科学家们可能忽略的关键因素,提高跨层级、多尺度、全周期的生命现象特征预测和分类的准确性和效率。人工智能还可以通过自动化实验和智能仪器等手段,实现实验过程的自动化和智能化。这不仅可以提高实验和准确性,还可以显著缩短实验时间,为生命科学研究提供更好的条件和支持。
因而,人工智能还可以帮助科学家们更好地理解和模拟生命过程和生态系统。利用人工智能的原理和手段来研究生命系统的基本规律,动态整合多层面与多因素,从而真正理解生命现象中的分子间相互作用与相互调控的规律,解决生命科学中的重大基本问题,全面提升生物学研究的高度,革新生物学研究的现有范式,拓展生物学研究的范围,实现生命科学和医学科学关键领域的实质性突破。
1.3 人工智能驱动的生命科学研究范式变革
历史上,生命科学的研究以假说驱动为主,这种研究方法主要是在理论指导下,根据已有的知识和观察到的现象提出假设,然后通过实验和数据分析来验证或推翻假说,从而推动理论的完善和发展。然而,这种方法往往受到研究者和现有知识的局限,假设可能无法涵盖所有可能的因素。21 世纪以来,随着数据量的不断增加和数据获取技术的进步,数据驱动的研究方法逐渐受到重视。这种研究方法以实验数据为基础,通过数据分析、挖掘和建模等手段来发现规律、验证假设和指导研究。相比传统的假说驱动方法,数据驱动方法能够发现隐含在大量数据中的规律,但缺乏对数据背后的因果关系的解释[4]。
人工智能的引入为生命科学研究带来了前所未有的机遇,其强大的计算能力和学习算法使得研究人员能够更全面、更深入地理解生物体系的运作机制。人工智能在生命科学研究中的应用主要体现在数据挖掘、分析和建模等方面。通过深度学习、自然语言处理等技术,人工智能能够从海量数据中提取有用信息,挖掘潜在规律,为研究者提供更多有价值的研究方向。同时,人工智能还能够根据现有数据和理论模型生成预测模型,帮助研究者预测未来趋势,从而指导实验设计和数据分析。在人工智能的助力下,数据驱动和假说驱动得以在一定程度上融合。研究者可以根据人工智能提供的数据分析结果,修正和完善假设,使得研究更加接近真实情况。这种融合使得生命科学研究能够更加高效地进行,有望为人类解锁生命奥秘提供有力支持[5]。
2 人工智能驱动的生命科学研究进展
人工智能在生命科学中的应用已经深入到了多个层面,从分子、细胞、系统到个体,为研究人员提供了强大的工具和方法。在分子层面,人工智能有助于解析和理解复杂的生物分子结构,预测分子的性质和功能,以及设计新的分子结构,为药物研发、基因编辑等领域提供了重要支持。在细胞层面,人工智能有助于分析细胞的功能和行为,揭示细胞之间的相互作用和调控机制,以及预测细胞对不同刺激的响应,为疾病诊断和治疗、细胞工程等领域提供了重要思路和方法。在系统层面,人工智能有助于解析生物系统的复杂性和整体性,揭示系统内部的相互作用和调控机制,以及预测系统的行为和变化,为生态学、医学等领域提供了新的视角和工具。在机体层面,人工智能有助于分析和理解个体的生理和行为特征,预测个体的健康状况和发展趋势,以及提供个性化的健康管理和治疗方案,为精准医疗、健康管理等领域提供了重要手段和支持。
2.1 分子层面
人工智能通过运用机器学习和深度学习模型,对生物分子间的相互作用和调控规律进行了深入解析,近年来在蛋白质结构预测、药物发现等领域取得了显著进展,其中以AIphaFold 模型为典型代表。2021 年,DeepMind 推出的基于深度学习的AIphaFold2算法能够预测98.5% 的人类蛋白质结构[6]。这一突破性成果被认为是仅次于人类基因组计划的重大成就,将为药物研发等领域提供有力支持[7]。2023年10 月,Deepmind 和Isomorphic Labs 联合发布了新一代AlphaFold 模型,这一模型能够预测几乎所有分子的结构,并且预测精度可达到原子级别。这一突破性的模型不仅为配体、蛋白质、核酸、具有翻译后修饰的生物大分子等多个关键生物大分子类别提供了全新的认识,而且显著提高了预测蛋白质结构的准确性[8]。但生物大分子结构的最基本特征之一是高度动态性,而现有的方法只能做到对三维静态结构的解析。未来,利用人工智能的原理和方法可以在“高维”动态结构预测和RNA 结构的精准预测方面做进一步探索[9]。
2.2 细胞层面
人工智能技术不仅可以更加深入地理解细胞结构和功能,还可以模拟细胞内的生物过程,如信号传导、代谢途径等,以及预测细胞行为和响应,帮助理解疾病的发生机制以及治疗方法。基于人工智能的图像分析技术具有广泛的应用前景,主要优势在于能够检测并识别隐藏在细胞图像中的固有细胞特性[10]。例如,谷歌研究院等团队结合人工智能和机器自动化技术提出了一种方法,能从帕金森病患者的皮肤中找到隐藏的疾病细胞特征[11] ;麻省理工学院研究团队基于明视野显微镜图像,以单细胞分辨率直接识别疟疾感染血液样本中的细胞种类和阶段[12] ;中国科学院研究团队基于用于细胞表型筛选的人工智能辅助对象检测模型和用于单细胞输出的跨界面接触方法, 开发了一种名为 EasySort AUTO 的基于索引的自动化系统,可以自动识别和分选单个细胞[13]。在理解细胞结构和功能方面,滑铁卢大学的研究人员开发了一种新程序GraphNovo,其利用机器学习来分析不熟悉的细胞的组成,从而更准确了解细胞中的肽序列[14]。在调节细胞代谢网络方面,上海交通大学团队通过感知基因的高阶相互作用来实现对细胞代谢的控制和改造,并开发了一个智能代谢重编程平台[15]。另外,侧重机理的数字细胞模型与数据驱动的人工智能模型的结合是一个值得关注的发展趋势,这种方法能更好地推动人们对复杂生命现象的理解,实现更高效的人工细胞合成和改造[16]。例如,查尔姆斯理工大学的研究团队开发了一种名为DLKcat 的深度学习方法,其仅通过底物结构和蛋白质序列信息即可对任何生物体代谢网络中的酶进行高通量的Kcat 预测,提高了代谢网络中酶动力学参数的覆盖度,为酶约束代谢网络模型的构建提供了有力支持[17]。
2.3 系统层面
生物系统的复杂性使得对其行为的解读和对其干扰或干预的预测极具挑战性。为应对这一挑战,研究人员需要整合和分析多种来源的数据,包括但不限于基因组学、转录组学、蛋白质组学和代谢组学等,旨在构建全面的生物系统模型。借助人工智能技术,对大规模且复杂的生物数据集进行处理和分析,有助于更深入地理解生物系统的运作机制等[18]。近年来,使用人工神经网络、机器学习和深度学习对复杂层次生物网络进行建模取得实质性进步。例如,中国科学院自动化所研究团队提出一种受生物脑启发的神经环路演化模型,研发出更具生物合理性和高效性的类脑脉冲神经网络[19]。目前,人工智能已逐渐成为结构系统生物学不可或缺的工具,用于分析大型复杂数据集并模拟生物系统的行为。特别是在蛋白质- 蛋白质相互作用网络的研究中,人工智能发挥着关键作用。例如,这些网络可以通过图神经网络和其他数学方法进行分析,从而揭示其基本特征,如中心性、模块化等[20]。
2.4 机体层面
人工智能可以利用大规模的个体数据,如基因组数据、临床数据等,进行个性化医学研究。例如,上海交通大学团队基于真实世界用药大数据研发出iPharma 个体化精准用药系统,实现个体化用药指导[21]。陆军军医大学第一附属医院研究团队基于人工智能技术开发了个体化精准用药系统,不仅降低了报告差错率和患者对药物不良反应的比例,还提升了药师的工作效率[22]。另外,人工智能在精准化、个性化健康管理中也发挥着重要作用。有研究表明,通过智能计算方法多维度监测运动方式,可以发现与肌肉骨骼或认知疾病、跌倒和平衡相关的问题。例如,早期帕金森病患者在行走过程中可能会面临启动、停止和转向困难等问题,而通过人工智能技术收集和分析这些数据资料,可以为慢性病的早期诊断和干预提供更加精准化的个人健康管理方案[23]。
3 人工智能驱动的生命科学研究机遇与挑战
人工智能在生命科学领域的应用为科学研究带来了前所未有的机遇和挑战。目前,人工智能正被应用于生命组学研究、蛋白质结构预测、生物图像处理、药物发现、生物育种、生物制造等多个领域。在医疗领域,人工智能使得更精确的诊断和更具成本效益的治疗成为可能。在农业领域,人工智能技术可应用于精确种植、减少资源浪费和提高产量。在工业生物领域,人工智能可以修改生命系统代谢途径,从而优化微生物物种的工业菌株,以最大限度地提高生物基工业装置的产量[24]。
尽管人工智能技术在生命科学、医疗保健、农业和工业生物技术领域具有巨大的潜力,但在实际应用中仍然面临一些挑战。这些挑战包括数据整合与分析的复杂性、数据隐私和伦理问题、算法的透明度和可解释性、数据质量和标准化问题等。例如,在医疗领域,一些基于人工智能的模型在临床诊断和预测方面的准确性还存在问题[25] ;在农业领域,收集、分析和利用数据来提高生产力存在许多障碍,隐私与安全问题是农民在数字化时代所面临的两大挑战[26] ;在工业生物技术领域,还需要更广泛的数据集和相关研究来开发基于人工智能和机器学习的模型,以实时监测和控制生物反应器和生物过程[27]。尽管存在这些挑战,但合理应用人工智能技术仍然可以推动生命科学领域的创新和突破,为人类的健康和福祉做出更大的贡献。因此,应当积极面对这些挑战,通过跨学科的合作和创新的方法来推动人工智能技术在生命科学领域的发展和应用。
4 促进人工智能驱动生命科学研究发展的建议
人工智能的引入为生命科学研究提供了前所未有的机遇,为更好地促进人工智能驱动的生命科学研究,建议从以下方面着手。
首先,跨学科合作是推动人工智能在生命科学研究中应用的关键。建议建立有助于跨学科交叉融合的人才培养和交叉研究体系,使生物学、计算机科学、工程学等领域的专业人才更加深入地合作。通过推动多领域专业人才的互通有无,不仅可以更好地解决生命科学问题,还能够促使新的理论和方法的涌现。此外,应加强对科学家和工程师的培训,使其具备跨学科背景和知识,更好地理解和应用人工智能技术。科学家需要不仅了解自己领域的知识,还需要具备计算机科学等相关领域的基础知识。培训计划应该贯穿研究生到职业科学家的全过程,确保新一代科学家具备更全面的学科素养。
其次,推动数据标准化是提高数据质量和可比性的有效途径。生命科学领域的数据来源复杂,来自不同实验室和项目的数据差异较大。因此,建议制定更为统一和普适的数据标准,以确保数据的一致性和可比性。通过建立更加通用的生命科学数据标准,能够提高数据的质量,使其更适合于人工智能算法的训练和分析。标准化不仅仅是技术问题,也需要政府、学术机构、产业界的共同努力。相关方需要共同商定并制定一套适用于生命科学领域的数据标准,确保其能够贯穿整个数据采集、存储、处理的全过程。此外,标准的建立需要周期性的更新,以适应生命科学研究领域的快速变化。
注重算法透明度和可解释性是确保科学家对算法的信任度的重要一环。在人工智能算法的应用中,算法的透明度和可解释性是当前亟需解决的问题。建议科学家和工程师在设计和使用算法时,注重算法的透明性,确保其决策过程对科学家是可理解的。这将有助于建立科学家对算法结果的信任度,提高算法在生命科学研究中的应用水平。为实现这一目标,可以通过开发更具可解释性的算法、建立算法决策的可追溯性机制等方式,增加算法决策过程的可理解性。此外,有必要加强科学家对人工智能算法的培训,使其能够更好地理解和应用这些算法,从而更好地指导研究方向。
强调隐私保护是在处理患者数据等敏感信息时需要着重考虑的问题。随着生命科学研究数据的增加,尤其是涉及患者敏感信息的情况,隐私保护问题日益凸显。建议在处理患者数据等敏感信息时,科学家和研究机构应遵循最高的伦理标准。在研究设计和实施中,应充分考虑数据隐私,采取措施确保数据的安全性。为实现隐私保护,需要建立明确的伦理准则和法规,规范生命科学研究中的数据处理行为。科学家需要明确知道如何处理和存储患者信息,以及何时需要征得患者的同意。此外,倡导对患者信息进行去标识化处理,以最大程度降低隐私泄露的风险。
再次,科研人员培训是塑造具备综合素养新一代科学家的关键。为适应人工智能驱动的生命科学研究,建议加强对科研人员的培训,使其能够更好地理解和使用人工智能技术。培训计划应该包括从基础的计算机科学知识到人工智能算法的应用,以确保科研人员具备全面的学科素养。培训计划的设计应根据科研人员的实际需求,注重实际操作和案例分析,使培训内容更加贴合实际研究工作。除了现有科研人员的培训,还需要在学术教育体系中加入相关的交叉学科课程,使培养的新一代科学家既具备生命科学知识,又能熟练运用人工智能技术。
基金项目:中国科学院战略研究与决策支持系统建设专项“面向‘十五五’规划研究制定的重要领域战略研究——人口健康”(GHJ-ZLZX-2023-13);上海市软科学研究计划“大数据时代下AI制药产业发展战略研究”(23692113700)
*通信作者:E-mail: kymao@sinh.ac.cn
李丹丹,馆员,中国科学院知识产权专员,上海科技翻译学会会员,专注于生物领域的产业与技术情报研究工作,服务了多家政府机构、高校院所与企业。主持了多项上海市科委和卫健委等机构生物医药领域项目,其中部分成果获得上海市科技情报成果奖和华东地区科技情报成果奖,个人获“上海地区优秀科技情报工作者”称号。
毛开云,副研究员,中国科学院上海营养与健康研究所生命科学信息中心产业与技术情报部副主任,主要从事生物领域的产业与技术情报研究、专利信息分析和知识产权分析评议工作。2016 年获评全国专利信息实务人才(国家知识产权局)。先后主持和参与科技部、国家卫健委食品司、国家知识产权局、中国科学院、上海市科委等来源的课题,主编《细胞治疗:技术与产业》等著作。
《生命科学》是由中国科学院上海营养与健康研究所主办,国家自然科学基金委员会生命科学部和中国科学院生命科学和医学学部共同指导的综合性学术期刊。1988年创刊,原刊名为《生物学信息》内部发行;1992年起更名为《生命科学》,公开发行CN31-1600/Q,大16开,96页。本刊是“中文核心期刊” “中国科技核心期刊” “中国科学引文数据库来源期刊(CSCD)”。