Cell Research 一作冯桂海专访 | 不以短期的文章产出为目标

学术 2024-11-11 12:00 北京

一作专访

本期一作专访是刚刚在 Cell Research 发表研究，参与构建世界首个知识与数据联合驱动的多物种生命基础大模型 GeneCompass 的冯桂海“致一”研究员。

冯桂海“致一”研究员

GeneCompass 大模型同时处理了人类和小鼠两个物种高达 1.3 亿的转录组数据，通过训练整合数据信息及先验知识，最终实现了对基因表达调控规律的全景式学习理解，支持细胞状态变化预测及多种生命过程的精准分析，展示了人工智能赋能生命科学研究的巨大潜力。

DOI https://doi.org/10.1038/s41422-024-01034-y

冯桂海“致一”研究员在采访中解答了 GeneCompass 开发过程的难点、将来的迭代思路，更回应了 AI 给科研带来的机遇和挑战以及对 Open Science 模式的看法。

以下为采访的全部内容：

01. GeneCompass 模型构建的思路是怎么样的，能实现什么样的功能？

冯桂海：

不同于以往某些单一用途的人工智能模型，GeneCompass 是一个基础大模型，构建思路是训练时候每次输入一个单细胞转录组，让模型通过已经给的基因的表达去预测遮蔽基因的表达，通过这样反复的训练，让模型理解特定细胞状态中，基因相互调控形成表达稳态的逻辑，也就是我们试图让人工智能学习细胞内基因表达的综合调控机制。有了这样一个“懂得”细胞运作的模型后，原则上所有跟基因表达相关的任务，这个模型都能提供有用的信息。比如基于模型，进行细胞类型注释、基因扰动预测、药物反应预测等，此外模型还具有定量表征基因的功能，可以微调后进行细胞命运预测和关键基因筛选等任务。

02.除了数据输入还需要一些人为干预，这些人为的部分是怎么设计和考虑的，对于 GeneCompass 模型构建的意义是什么？

冯桂海：

模型的“人为干预”主要包括两个部分，一部分是模型的超参数，超参数调优本身就是算法的一部分，主要涉及模型的学习率、批量大小、激活函数等。这些参数除了已有的一些工具模拟外，主要还是依赖我们合作者已有的实践经验，这也是领域普遍面临的问题。

另外一个“人为干预”则是我们模型特色的“生物先验知识融入”。我们在构建模型时候考虑，现代生命科学发展了近百年的时间，产生的诸如基因家族定义、启动子区等信息，一定是对模型是有帮助的，而加入哪些知识、如何加入是我们需要人为干预的，在这个选择的过程中，我们通过与生命科学领域专家深入交流，最后选定了加入的知识及加入方式，尤其通过特征消融实验证明了这些知识对模型性能的提升是有作用的。这样一个创新实际是生物智慧积累“干预”人工智能的一个探索。

GeneCompass 主要开发者合影GeneCompass 部分共同第一作者合影

03.GeneCompass 构建过程中最大的难点是什么，怎么解决的？整个构建过程中是否有使用 AI 来解决你的科研难题？

冯桂海：

作为首个跨物种的单细胞转录组基础大模型，在构建过程中遇到很多的困难，比如模型架构设计、先验知识融入、特征有效性消融等，但印象比较深的难点反倒是一个看起来比较简单的问题，输入数据处理。

开始我们估算了模型达到性能要求所需的数据量要达到 1 亿个以上的单细胞，然后开始数据采集，数据主要来自 GEO 数据库，以及已经发表的专门的单细胞相关数据库。本来以为这是一个很简单的工作，但采集过程中，我们发现数据库中对数据注释质量非常的不稳定，许多样品对器官、细胞系等信息的描述非常不规范，甚至连物种、性别、发育阶段等信息的标注都是错的。而有些信息对我们建模又非常重要，因此我们发动了实验室很多的同学进行了多轮次的手工标注，确保数据原始信息的准确，这对模型性能提供了重要保障。在这过程中我们也利用了一些人工智能工具对数据进行质量控制，但由于这些人工智能工具在处理如此规模的元数据上还是有一定的局限，因此人工智能有时候还需要“人工”的支持。

04.我国的科研工作者什么时候可以用上 GeneCompass？GeneCompass 下一步的迭代会是怎样的更新，希望能实现什么样的功能？

冯桂海：

我们遵循科学研究的惯例，现在 GeneCompass 的源代码都已在 github 网站进行开源，所有基于科学研究的人员均可以自由下载使用。当然，如果想要进行模型的复现，对算力还是有一定要求的，因此我们也在积极考虑进行模型部署，希望未来可以为有相关模型需求但又没有算力或人工智能背景的科研人员提供在线的模型训练以及下游应用定制服务，我们期待在不久将来 GeneCompass 可以为所有有使用意愿的科研人员提供在线服务。

现在版本的 GeneCompass 主要基于人和小鼠的单细胞转录组数据进行的训练，未来我们主要从三个方面考虑对 GeneCompass 进行升级。

1）训练数据模态，除了单细胞转录组数据，空间转录组、单细胞表观组甚至文献信息等数据也包含了丰富信息，因此，在未来的 GeneCompass 版本，除了训练数据数据量的提升，我们也计划增加数据模态的多样性，使得模型具有更大的应用范围。

2）物种多样性，现有 GeneCompass 的版本，主要聚焦人和小鼠两个物种，未来版本我们采用新的策略，融入更多物种的数据，期待能够解决多物种尤其非模式物种的相关问题。

3）为了适用训练数据量的增加，相应的模型参数量、先验知识加入方式以及模型架构都会有相应的优化及提升。

05.学界大力推进科研范式变革，AI 带来哪些机遇和挑战？

冯桂海：

毫无疑问，人工智能的出现给整个生命科学带来巨大机遇，以今年荣获诺贝尔化学奖的 AlphaFold 为例，由于其优良的预测性能，为蛋白从头设计、药物开发等领域带来重大利好。开始出现时候给学术界带来极大震撼，相关团队或企业迅速跟进，随着关注热度及盈利能力的减退，领域持续发展遇到瓶颈。在这个过程中我们看到，这种针对生命领域重要问题的人工智能应用，需要多学科的高度融合交叉，需要多领域专家的深度合作，这无疑提高了学术开展的门槛，原来单领域的小科研团队无法适应这种模式创新。此外，作为人工智能变革科研范式的初期阶段，已经出现“蹭热点”、 “抢资源”的“一锤子”式科研现象，无论是对领域持续创新还是国家竞争力提升都是非常有害的。

面对这些挑战，我们联合中国科学院多个研究所课题组组建了跨学科的学术团队“指南针联盟”，联盟聚焦生命领域的核心问题，不以短期的文章产出为目标，期待能够建立数智驱的生命科学研究的大团队攻关新模式。

06.Open Science 也是一种很新的科学研究模式，怎么看这个模式，是否以后会涉及到？

冯桂海：

从科学发展的历程来看，开放科学无疑是科研模式的必然趋势，最简单的，开放科学对解决学术诚信，提升大众的科学素养都具有重要作用，因此我对开放科学是非常赞同的。更深一层，科学研究包含提出假设、编写代码，开展实验、产生数据、撰写论文等一系列流程。而在人工智能驱动的科研范式下，科学研究活动除了产生新知识，科研过程本身也是训练数据，如果能够实现将科研过程开放，必然能够进一步增强人工智能对科学研究的推动作用。我们在已经开展的科研过程中，除了必要的数据隐私信息保护，已经尽量做到数据、代码的开放，在我们未来科研计划体系中也有“具身智能”的远期设计，因此开发科学的模式一定会涉及。

编辑：刘智清

本文为原创，未经允许不得擅自转载、引用

注：部分图片来自网络，版权属于原作者

http://mp.weixin.qq.com/s?__biz=MzAxNDc5ODA0NQ==&mid=2247489498&idx=1&sn=e8bbc6f7bcee1afa3df9b62f7b05d2ab

北京干细胞与再生医学研究院

开展干细胞与再生医学研究，促进生命与健康科技发展，生命交叉前沿技术与装备研发，相关成果转化与推广。

Cell Research 一作冯桂海专访 | 不以短期的文章产出为目标

“HOPE论坛”第十二期预告

ACS Nano | 魏妥团队合作开发掺杂锰佐剂的脾脏靶向 mRNA 肿瘤疫苗

Advanced Materials | 魏妥团队合作开发器官和细胞双重特异性 mRNA 靶向递送技术

Cell | 刘光慧/曲静研究员等合作揭示免疫球蛋白驱动炎性衰老的机制

第四届人多能干细胞研究与治疗国际研讨会（PSConf 2024）在京成功召开

第五届中国干细胞与再生医学协同创新平台大会在北京召开，发布全球第一个干细胞数据管理国际标准

Circulation Research | 宋默识研究员等建立 CAR-巨噬细胞治疗心肌缺血再灌注损伤的新方法

PSConf 2024 | 第四届人多能干细胞研究与治疗国际研讨会会议日程已更新

会议通知 | 第五届中国干细胞与再生医学协同创新平台大会暨国家干细胞资源库第 45 期干细胞高级技术培训（第二轮通知）

会议通知 | 第五届中国干细胞与再生医学协同创新平台大会暨国家干细胞资源库第 45 期干细胞高级技术培训（第一轮通知）

生物医学法律与伦理前沿工作坊：医药生物领域高价值专利布局策略构建

Cell Research | 李鑫研究员团队合作发布 GeneCompass：解析基因调控密码，打造干湿实验融合新范式

PSConf 2024 | 第四届人多能干细胞研究与治疗国际研讨会第二轮通知

Cell | 刘光慧/曲静研究员等揭示二甲双胍延缓灵长类衰老的潜力

2024 干细胞第十四届年会圆满落幕：“北国风光” —— 共探干细胞领域新前沿

Cell 一作陈阳灿专访 | 需求导向驱动新型基因工程工具开发

“HOPE论坛”第十一期预告

成果发布 | 国家干细胞资源库开展类器官资源共享

成果发布 | 可用于新药研发的人胚干细胞共享及技术许可

BISCRM 深入学习贯彻党的二十届三中全会精神

凝心聚力奋楫扬帆 —— BISCRM 党小组成立暨西柏坡党建活动

Nat Cell Biol | 郭帆研究员团队解析人植入前胚胎中 DNA 羟甲基化的起源与命运及功能

BISCRM 科技成果推介会（第二期）圆满举办

青年扬帆领航，“致一”再添新员 —— 第四届“致一研究员”计划入选者揭晓

Cell | 李伟研究员团队开发逆转座子基因工程新技术，实现全 RNA 介导的基因精准写入

“HOPE论坛”第十期预告

全国科技大会国家科学技术奖励大会两院院士大会在京召开习近平为国家最高科学技术奖获得者等颁奖并发表重要讲话

北京市政协主席魏小东一行调研北京干细胞与再生医学研究院

致一薪火传，青年启未来 —— 首届“致一研究员”终期考核圆满落幕

Cell | 张勇和王皓毅团队合作探索 DNA 转座子多样性并拓展基因工程工具箱

“适应细胞技术领域发展趋势的专利保护及创新转化”研讨会圆满召开

帕金森病患者招募持续进行中

Cell | 于乐谦、郭靖涛研究员 3D 重构人类原肠期胚胎，首次揭示人类胚胎尾端组织中心调控原肠运动

国家干细胞资源库岗位招聘

科技部、北京市共同召开部市共建北京国际科技创新中心现场推进会议

BISCRM召开 2024年度工作会议

祝贺刘光慧、王红梅研究员成果入选 2023 年度“中国生命科学十大进展”

祝贺！刘光慧研究员成果入选 2023 年度“中国科学十大进展”

“HOPE论坛”第八期预告

Cell | 黄仕强/王红梅/漆洪波/李伟团队利用代谢组学技术揭示灵长类多组织器官妊娠期代谢重编程

“HOPE论坛”第七期预告

Cell | 焦建伟研究组及合作团队解析人脑发育时空图谱及规律

Cell丨吴军/谭韬/季维智/魏育蕾/于乐谦团队利用同种培养条件建立早期胚胎三种干细胞系并解析早期发育时期细胞互作关系及机制

帕金森病患者招募

祝贺干细胞院理事杨晓明研究员荣获第十一届中国免疫学会“杰出学者奖”

Nature | 刘光慧/曲静合作揭示延缓灵长类脊髓衰老的新靶标

BISCRM 第一届理事会第四次会议顺利召开

Cell Stem Cell|刘光慧/曲静合作揭示衰老组织不易自愈的原因

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉