近日,美国斯坦福大学、基因泰克公司(Genentech)和陈-扎克伯格基金会(Chan-Zuckerberg Initiative)的科学家团队在《细胞》杂志上发表了一篇论文。
文章提出,鉴于目前人工智能(AI)的最新进展和人类生物学的大规模实验数据已达到临界量级,人们可以利用AI来创造虚拟人类细胞,并呼吁全球科学界为这项开创性工程携手合作。
《细胞》杂志上发表的论文
01
AI虚拟细胞(AIVC)是一种基于多尺度、多模态的大型神经网络模型,换言之,它是用计算机搭建出来的细胞系统,可以用来模拟分子、细胞和组织在不同状态下的行为。
那么合成的细胞模型是如何创建出来的?
这首先需要人们从对细胞的各种测量中获取其多模态数据(如基因组、表型和空间信息等),并分析各种数据之间的关系,即了解细胞运作的机制,再通过整合多模态数据,构建跨尺度的通用表示来复刻细胞的运作。
想象一下,如果可以在计算机上观察细胞是如何自然分化的,又是如何从健康演变为恶性的,以及病毒感染或外部环境的变化会对细胞和宿主生物体造成哪些影响,人们就可以摸清复杂的生物机制。在过去,这些实验需要在实际的细胞体中操作,不仅难度很大,成本也十分高昂,甚至有些假设实验几乎没有实际操作的可能,而合成模型可以完全规避这个问题。
论文中对AIVC的功能图解
另外,每个人的体质不同,这决定了我们对同样治疗手段和药物的反应不一样,这也是为何药物说明书中会标明副作用,尽管这只是小部分概率,但不能忽视不良药物反应带来的危害。试想,如果针对具体患者构建他的虚拟细胞模型,就可以了解他的病情进展,预测身体可能会出现哪些反应来配量开药,并根据数据反馈做针对性预案。
除了解决临床问题,AIVC对理论界的意义也十分重大,因为其中不仅利用到AI模型的相关技术,还涉及基因组学、代谢组学、转录组学等组学技术,有助于建设新型交叉学科并基于此探索更多临床课题。
02
其中的关键难点在于,高保真的AI驱动模型,需要庞大的训练数据,而一旦涉及原始生物数据,必然会面临伦理安全的问题。如何在保证隐私的前提下获取数据,如何确保获取的数据不作他用,行业准则的建立与落实是首要挑战。
除了伦理风险,技术层面的难题也十分艰巨,这是由细胞的属性及其复杂的运作机制决定的,因为每个细胞都是一个动态的适应性系统,需要涉及物理和时间双重尺度,也就是要涵盖细胞系统在静态和动态两种状态下,面对不同条件刺激的数据。多维度的数据需求不仅提高了获取难度,也加剧了模型整合时用计算机语言跨尺度表示的困难。
斯坦福大学生物工程和病理学副教授艾玛·伦德伯格(Emma Lundberg)坦言:“功能齐全的模型可能要十年或更长时间才能问世。”这也是她呼吁科学界携手的重要原因,毕竟参与者越多,所能提供的数据资源就越多,AI 技术的进展就能更快地惠及AIVC。
不过,组织层面的多领域开放合作也是一道难关。想要支持从创建多模态数据集、训练AIVC,再到合成模型的具体应用全流程的项目工作,需要长期的跨学科合作,涉及学术界、慈善界、生物制药和人工智能行业等多个领域,还要考虑到数据使用的约定、成果的共享等问题。
但无论如何,AI虚拟细胞的构想至少释放了积极信号,这意味着AI与生物学深度融合的进度正在加快。数字孪生(用数字化方式创建物理实体的虚拟实体)的技术手段已被广泛应用于航天、电力、农业等行业,如今,得益于AI技术的突破与生物医学领域的进步,创造人类的数字孪生体也将成为可能。
微信订阅