一作专访
本期一作专访是刚刚在 Cell Research 发表研究,参与构建世界首个知识与数据联合驱动的多物种生命基础大模型 GeneCompass 的冯桂海“致一”研究员。
冯桂海“致一”研究员
GeneCompass 大模型同时处理了人类和小鼠两个物种高达 1.3 亿的转录组数据,通过训练整合数据信息及先验知识,最终实现了对基因表达调控规律的全景式学习理解,支持细胞状态变化预测及多种生命过程的精准分析,展示了人工智能赋能生命科学研究的巨大潜力。
DOI https://doi.org/10.1038/s41422-024-01034-y
冯桂海“致一”研究员在采访中解答了 GeneCompass 开发过程的难点、将来的迭代思路,更回应了 AI 给科研带来的机遇和挑战以及对 Open Science 模式的看法。
以下为采访的全部内容:
01. GeneCompass 模型构建的思路是怎么样的,能实现什么样的功能?
冯桂海:
不同于以往某些单一用途的人工智能模型,GeneCompass 是一个基础大模型,构建思路是训练时候每次输入一个单细胞转录组,让模型通过已经给的基因的表达去预测遮蔽基因的表达,通过这样反复的训练,让模型理解特定细胞状态中,基因相互调控形成表达稳态的逻辑,也就是我们试图让人工智能学习细胞内基因表达的综合调控机制。有了这样一个“懂得”细胞运作的模型后,原则上所有跟基因表达相关的任务,这个模型都能提供有用的信息。比如基于模型,进行细胞类型注释、基因扰动预测、药物反应预测等,此外模型还具有定量表征基因的功能,可以微调后进行细胞命运预测和关键基因筛选等任务。
02.除了数据输入还需要一些人为干预,这些人为的部分是怎么设计和考虑的,对于 GeneCompass 模型构建的意义是什么?
冯桂海:
模型的“人为干预”主要包括两个部分,一部分是模型的超参数,超参数调优本身就是算法的一部分,主要涉及模型的学习率、批量大小、激活函数等。这些参数除了已有的一些工具模拟外,主要还是依赖我们合作者已有的实践经验,这也是领域普遍面临的问题。
另外一个“人为干预”则是我们模型特色的“生物先验知识融入”。我们在构建模型时候考虑,现代生命科学发展了近百年的时间,产生的诸如基因家族定义、启动子区等信息,一定是对模型是有帮助的,而加入哪些知识、如何加入是我们需要人为干预的,在这个选择的过程中,我们通过与生命科学领域专家深入交流,最后选定了加入的知识及加入方式,尤其通过特征消融实验证明了这些知识对模型性能的提升是有作用的。这样一个创新实际是生物智慧积累“干预”人工智能的一个探索。
GeneCompass 主要开发者合影GeneCompass 部分共同第一作者合影
03.GeneCompass 构建过程中最大的难点是什么,怎么解决的?整个构建过程中是否有使用 AI 来解决你的科研难题?
冯桂海:
作为首个跨物种的单细胞转录组基础大模型,在构建过程中遇到很多的困难,比如模型架构设计、先验知识融入、特征有效性消融等,但印象比较深的难点反倒是一个看起来比较简单的问题,输入数据处理。
开始我们估算了模型达到性能要求所需的数据量要达到 1 亿个以上的单细胞,然后开始数据采集,数据主要来自 GEO 数据库,以及已经发表的专门的单细胞相关数据库。本来以为这是一个很简单的工作,但采集过程中,我们发现数据库中对数据注释质量非常的不稳定,许多样品对器官、细胞系等信息的描述非常不规范,甚至连物种、性别、发育阶段等信息的标注都是错的。而有些信息对我们建模又非常重要,因此我们发动了实验室很多的同学进行了多轮次的手工标注,确保数据原始信息的准确,这对模型性能提供了重要保障。在这过程中我们也利用了一些人工智能工具对数据进行质量控制,但由于这些人工智能工具在处理如此规模的元数据上还是有一定的局限,因此人工智能有时候还需要“人工”的支持。
04.我国的科研工作者什么时候可以用上 GeneCompass?GeneCompass 下一步的迭代会是怎样的更新,希望能实现什么样的功能?
冯桂海:
我们遵循科学研究的惯例,现在 GeneCompass 的源代码都已在 github 网站进行开源,所有基于科学研究的人员均可以自由下载使用。当然,如果想要进行模型的复现,对算力还是有一定要求的,因此我们也在积极考虑进行模型部署,希望未来可以为有相关模型需求但又没有算力或人工智能背景的科研人员提供在线的模型训练以及下游应用定制服务,我们期待在不久将来 GeneCompass 可以为所有有使用意愿的科研人员提供在线服务。
现在版本的 GeneCompass 主要基于人和小鼠的单细胞转录组数据进行的训练,未来我们主要从三个方面考虑对 GeneCompass 进行升级。
1)训练数据模态,除了单细胞转录组数据,空间转录组、单细胞表观组甚至文献信息等数据也包含了丰富信息,因此,在未来的 GeneCompass 版本,除了训练数据数据量的提升,我们也计划增加数据模态的多样性,使得模型具有更大的应用范围。
2)物种多样性,现有 GeneCompass 的版本,主要聚焦人和小鼠两个物种,未来版本我们采用新的策略,融入更多物种的数据,期待能够解决多物种尤其非模式物种的相关问题。
3)为了适用训练数据量的增加,相应的模型参数量、先验知识加入方式以及模型架构都会有相应的优化及提升。
05.学界大力推进科研范式变革,AI 带来哪些机遇和挑战?
冯桂海:
毫无疑问,人工智能的出现给整个生命科学带来巨大机遇,以今年荣获诺贝尔化学奖的 AlphaFold 为例,由于其优良的预测性能,为蛋白从头设计、药物开发等领域带来重大利好。开始出现时候给学术界带来极大震撼,相关团队或企业迅速跟进,随着关注热度及盈利能力的减退,领域持续发展遇到瓶颈。在这个过程中我们看到,这种针对生命领域重要问题的人工智能应用,需要多学科的高度融合交叉,需要多领域专家的深度合作,这无疑提高了学术开展的门槛,原来单领域的小科研团队无法适应这种模式创新。此外,作为人工智能变革科研范式的初期阶段,已经出现“蹭热点”、 “抢资源”的“一锤子”式科研现象,无论是对领域持续创新还是国家竞争力提升都是非常有害的。
面对这些挑战,我们联合中国科学院多个研究所课题组组建了跨学科的学术团队“指南针联盟”,联盟聚焦生命领域的核心问题,不以短期的文章产出为目标,期待能够建立数智驱的生命科学研究的大团队攻关新模式。
06.Open Science 也是一种很新的科学研究模式,怎么看这个模式,是否以后会涉及到?
冯桂海:
从科学发展的历程来看,开放科学无疑是科研模式的必然趋势,最简单的,开放科学对解决学术诚信,提升大众的科学素养都具有重要作用,因此我对开放科学是非常赞同的。更深一层,科学研究包含提出假设、编写代码,开展实验、产生数据、撰写论文等一系列流程。而在人工智能驱动的科研范式下,科学研究活动除了产生新知识,科研过程本身也是训练数据,如果能够实现将科研过程开放,必然能够进一步增强人工智能对科学研究的推动作用。我们在已经开展的科研过程中,除了必要的数据隐私信息保护,已经尽量做到数据、代码的开放,在我们未来科研计划体系中也有“具身智能”的远期设计,因此开发科学的模式一定会涉及。
编辑: 刘智清
本文为原创,未经允许不得擅自转载、引用
注:部分图片来自网络,版权属于原作者