AI 如何驱动生物制造?(上)丨再创

学术   2024-12-16 14:12   新加坡  

引言 /Introduction


生物制造与 AI 的紧密结合正引领着一场从基础研究到产业应用全面升级的科技革命。从生物大数据处理、复杂模型预测到仿真优化,AI 与合成生物学的结合不仅提高了科研人员的研发效率,还带来了全新的智能化、高效化和可持续的产业模式。

2024 年 12 月 6 日上午第五届合成生物制造产业大会主会场现场,罗小舟研究员主持了⌈AI 驱动生物制造⌋板块的相关主题演讲与圆桌讨论环节。第二天上午的内容精彩纷呈,干货满满。除了主题演讲外,还汇集了来自产业界、学术界和投资界的多位专家,共同探讨 AI+SYNBIO 的深刻洞见。现场座无虚席,气氛高涨。再创也在现场倾听了全程,并为各位读者们整理了 ⌈AI 驱动生物制造⌋ 板块的精彩亮点内容。

范锐 / 作者

孟凡康 / 审校


演讲一:
自然科学大数据平台 DataX 的构建与应用:从专用搜索引擎到数据库生态系统

中国科学院深圳先进技术研究院(下称先进院)副研究员王腾首先为大家介绍了先进院自行研发的 DataX 平台。
王腾老师首先介绍了一个例子,“假设我是一个对蛋白质和核酸相互作用非常感兴趣的研究者,我想训练一个机器训练模型,预测蛋白质与核酸之间的相互作用,首先我需要找到蛋白质与核酸相互作用的大数据资源。我可能先从像谷歌/Bing 这样的搜索引擎入手,并输入“蛋白质核酸相互作用的数据库”进行搜索,在微软的智能推荐里,给了两个数据库,一个是 NPIDB,另一个是 BIPA。但这两个数据库已经无人维护。沿着搜索页里与数据库有关的参考文献进一步按图索骥,我们发现绝大部分参考文献指向的数据库也已失活。”  通用搜索引擎在大数据检索方面,效率其实并不高。用大语言模型(如 ChatGPT)进行搜索,也会返回不匹配真实需求的数据库。人工智能大模型在大数据资源的推荐方面,效率同样不高。
即使无人维护了,但他们存在过。这些存在所产生的痕迹,留在了参考文献里,留在了广浩的互联网世界中。而当我们检索时,就会对我们带来极大的困扰。
目前,高价值科学数据在互联网中呈现出孤岛式分布现象,获取这些数据非常依赖领域内的专业经验。只有深耕多年的专家才能定位到这些资源,而对于新进入该领域的科研人员来说,寻找相关大数据资源仍然非常困难。
如何克服这个瓶颈,使得我们能够更加高效地找到散布在各互联网世界里的数据库资源?
AI for Science:指利用人工智能技术加速科学研究的进程,通过模拟、预测、优化等手段,帮助科学家解决传统方法难以处理的复杂问题,从而推动科学发现和技术创新。
AI for Science 的三大基石是数据、算力和算法如何获得需要的数据,且是轻松获得有用的数据?这是 AI for Science 需要解决、跨越的第一道门槛。
王腾认为,要充分释放 AI for Science 的潜能并应对未来科学领域的复杂挑战,必须采用跨尺度、跨学科的视角。自 2023 年开始,王腾的实验室开始尝试创建一个面向自然科学全领域的大数据搜索工具(名为 DataX),其目标是为所有自然科学的从业者提供便捷的大数据资源检索服务,无论来自哪个细分领域。其中 DataX 围绕 9 个核心领域(合成生物学、天然产物、药物发现、流行病、微生物群落、抗生素耐药性、罕见病、生物标志物、脑科学)开辟了“领域数据库全集”。
随着 DataX 未来收录的领域越来越广(从微观的分子数据,到宏观的气候、生态、人群流行病学数据),研究者能利用这个平台,把平时分布在不同专业领域里的数据“拼”起来。比如,我们想预测下一次流行病不光需要病毒基因组信息,还要整合人群移动模式、生态环境变化、气候数据等等相关数据库。这些资料本来散落在各处,未来 DataX 可以让他们在同一个界面下方便整合。再比如我们想研究某个菌群基因是否和肥胖有关,过去可能需要自己费力找合适的数据集对比,而有了 DataX,我们就可以更轻松地检索到不同人群、不同疾病条件下的菌群数据集,更快进行初步的统计学分析。不过,王腾特别强调,目前的研究仅基于大数据和人工智能分析,得出的只是统计学规律,尚未涉及因果关系的验证。若要进一步确认因果关系,则需要通过体内实验来验证。
据王腾介绍,截至目前,DataX 已收录了超过 8150 个大数据资源,且这些数据库都经过了清洗和审查,能保证短期内的活跃性。相较于其他数据库平台(如 Database Commons),DataX 的优势在于其资源经过严格筛选,避免了失效数据的干扰。
据再创了解,该平台目前还在内部测试中。期待 DataX 的早日上线以及后续运营,从而助力优质数据的整理,并进一步加速后续的数据规律发现,加速科研步伐。也期待未来 DataX 能够得到长期的支持和维护。

演讲二:
数据、自动化与多智能体:AI 驱动合成生物制造发展的机会与未来

深圳晶泰科技有限公司联合创始人 CTO 赖力鹏博士在报告中分享了几个重要的观点。
1. 未来 2~3 年甚至更长时间里,数据将会成为 AI 能否快速产业化落地的核心因素。
2. 自动化在数据产生过程中所起到的作用和价值:降低数据获取门槛、提升实验通量与数据质量,从而为 AI 的高效落地与产业升级提供坚实的数据基础。
自动化的应用如今正在从工业生产领域逐渐向实验室研发环节渗透,将使得数据产生过程不再成为创新迭代的瓶颈。24 小时连续运行、标准化操作、高精度控制,这几个高端自动化技术的关键要素确保了能够持续且稳定地产生高质量数据、降低获取数据的成本,并确保数据更具一致性与可重复性。赖力鹏在这部分提出了一个公式,即:生产及研发成本=单次循环成本×迭代次数。把这个公式放在药物研发领域的“DMTA”循环(设计 Design-制造 Make-测试 Test-分析 Analysis)中时,可以观察到,AI 的优势在于减少试错次数(大模型协助找到成功率高的可能设计),而高效的数据获取手段能降低单次循环成本。赖力鹏:“回到数据端,在晶泰我们会看到,除了在已有的存量数据之上,怎么利用更好的实验数据和自动化技术来降低数据获取成本,提高数据获取效率。这一点上,未来几年,在产业界,尤其对企业来说,这可能是最核心的竞争力。”
在谈到合成生物制造领域的机会与未来时,赖博士首先提出了三个非常务实的合成生物学+AI 在应用层面的关键问题:
  • AI 如何在分子水平调控上与合成生物制造结合?
  • 如何利用 AI 对细胞状态进行识别,并结合过程优化(如贝叶斯优化、强化学习)实现更好的工艺?
  • 在产业化方面,如何对已有生物制造产物进行再次加工,利用 AI 实现更大的产品价值?

赖力鹏分享了在晶泰内部,AI 用于核酸、多肽以及酶的设计和优化案例,并说明了在特定数据集支持下,AI 可在分子层面实现功能优化与性能提升。比如在多肽设计这一特定领域里,通过将公开数据重新整理成专有数据集,晶泰科技的 AI 模型(X-PepGen)在特定任务上表现优于 ProteinMPNN 模型。赖博还介绍了其他一些例子,欢迎读者们查看视频回放了解。

https://www.bilibili.com/video/BV1cZiiYqEsX/?spm_id_from=333.999.0.0&vd_source=0e53dcb65929eaa49a9ce9678f4ff292
ProteinMPNN:David Baker 组用于蛋白设计的方法,一个基于深度学习的序列生成模型。感兴趣的读者欢迎阅读 https://pubs.acs.org/doi/10.1021/jacs.3c10941

接着,赖力鹏从三个维度介绍了 AI 如何在细胞层面进行探索的经验。他们针对单细胞数据建立基于图像、组学和知识图谱的分析平台,提升了细胞表型及机理研究能力。1. 分析图像数据:基于高内涵单细胞影像的深度学习方法。晶泰在原有 DeepProfiler 和 CellProflier 方法基础上引入 Transformer 的注意力机制,从海量且有噪音的单细胞数据中提炼有价值信息。2. 组学分析:转录组分析大模型。在这一层面,晶泰为了更好地对长序列进行处理,采用更适配转录组数据处理的模型架构(如 MAMBA)预测基因扰动效应。3. 对图的处理。为了从药物表型变化反推它可能的作用通路以及它在细胞内蛋白作用的通路,晶泰收集了大量的数据并构建了大规模知识图谱。通过知识图谱于深度学习的结合,帮助识别了药物作用机制与靶点,从而实现对细胞状态更准确的观察与标注,并为后续工艺优化和控制奠定基础。

接着,他提到了未来 AI 落地的两个重要方向:1。由大语言模型驱动的多智能体(Multi-Agent)应用,即通过不同领域的智能体协同工作,加速从数据处理、科学假设验证到实际方案落地的全流程。2. 将 AI 与自动化作为类似互联网的基础设施,打造开放共享的产业生态体系。

晶泰科技:

晶泰科技成立于 2014 年,起源于波士顿。晶泰科技与中国的工程优势相结合。目前,公司在深圳、北京、上海及海外设有研发或商务中心,拥有约 700 名员工和大型自动化实验室。其核心领域是生物医药,同时将 AI 与自动化技术拓展至化工、新能源、新材料等多个新兴领域,并与全球逾 300 家产业伙伴深度合作。今年 6 月,晶泰科技在港交所成功上市。借助内部孵化(如科迈生物)与广泛投资,晶泰正构建一个基于 AI 和自动化的平台化产业生态,涵盖新药研发、新材料、化妆品、食品、农业等领域,助力产业创新与升级。


演讲三:
华为云盘古大模型在生物医药领域的实践成果+AI for Science 平台的未来规划

在中国,百度、字节跳动、腾讯等知名企业都开始布局其生命科学领域相关的 AI 模型。华为也不例外。在这个环节的主题演讲中,华为带着盘古大模型来到了现场,向各位报告盘古大模型的进展。华为云 AI4S 生物领域产品总监王冰首先介绍了华为盘古大模型的概况:华为云的盘古大模型(下称盘古)是其在人工智能领域的重要布局,已迭代到 5.0 版本,包含计算机视觉(CV)、自然语言处理(NLP)、多模态、预测以及科学计算五大基础模型。这些模型在产业中已实现一定程度的应用。

盘古在生物医药领域聚焦于三大方向:1. 药物发现与设计。2. 靶点发现与先导化合物优化。3. 天然产物分子表征与应用。

在药物发现与设计方面,盘古以 17 亿小分子和 1 万余条蛋白数据作为训练基础,数据和参数规模巨大。目前在药物研发预训练大模型药物发现任务中,王冰称有 20 多个药物达到了当前业界的最佳表现(包括虚筛分子库、CPI、ADME、分子优化)。简而言之,华为盘古药物分子大模型以海量数据与参数为基础,具备更高的药物小分子预测精度和广泛适用性;同时通过云端服务实现“开箱即用”,无需配置软硬件环境,节省成本。此外王冰还提到,盘古能够在保留原有分子活性的前提下,能快速对分子结构进行优化,实现药物专利突破。

现如今,盘古辅助制药分装平台已内嵌了其训练的药物分子大模型,该平台现在支持药物研发一站式服务包括靶点发现、苗头化合物发现以及先导化合物发现等。除此之外,基于盘古药物分子大模型,华为还孵化出了天然产物分子大模型。同时,通过与天士力合作,增训了 350 万的天然产物数据,从而达到对天然产物进行表征。

王冰表示,华为云 AI for Science 平台在设计理念上以昇腾云大算力为基础,目标是为研究人员提供一站式开发平台。底层层面,平台利用国产的昇腾算力满足本土科研需求(昇腾:华为自研芯片)。在上层架构中,平台为各类科研场景提供具备行业特性的开发套件和工具,使科研人员能够快速将 AI 技术应用于实际研究。此外,王冰称,通过完善的一站式流程,用户可轻松完成模型训练、微调与部署推理等环节,实现“开箱即用”的模型能力。

演讲四:
硬件、数据、算法:高通量工艺开发与精准发酵

但要说实现生物制造,生物反应器是其中一个关键的设备。其作用贯穿研发阶段和量产阶段两个核心环节。在量产阶段,反应器的目标是降低能耗、提高利用率;而在研发阶段,关键则是能否高效推进研发,缩短产品上市时间。这使得微小型生物反应器在研发阶段成为不可或缺的工具。

迪必尔智能科技(深圳)有限公司董事长钱钧弢先生发表了主题为《硬件、数据、算法:高通量工艺开发赋能精准发酵》的演讲。他指出,当下的生物经济发展正逐渐走向高精度与高通量的研发方向,生物反应器在这一进程中扮演着至关重要的角色。

钱钧弢坦言,在企业创业初期,迪必尔试图解决从菌株构建到高通量筛选、再到中试放大的全流程技术瓶颈。然而,事实证明,试图打通全产业链过于困难,导致企业运营压力加剧。痛定思痛后,迪必尔调整了战略,聚焦于解决产业链中最核心、最困难的问题--高通量工艺开发和精准发酵。

高通量工艺开发面临的核心挑战包括:
1. 消除放大差异:实现从小型研发设备到工业级量产设备的条件匹配。
2. 打通高通量筛选与高通量工艺开发的瓶颈:解决菌株从筛选到发酵验证的衔接难题。
3. 跨越两到三个数量级的通量差距:从数千株菌的筛选扩展到数万株菌的快速验证和优化。

传统的发酵工艺多聚焦于传统食品(如啤酒与面包),但随着基因工程、代谢工程和基因编辑技术的不断突破,生物制造的重点逐渐转向生产新型替代蛋白(如母乳寡糖),精准发酵成为核心方向。钱钧弢强调,精准发酵则不仅是产物简单的增产扩量,而是通过硬件(生物反应器)+数据(高质量数据管理)+算法(模型构建与优化)的深度融合,实现高效率、高通量的研发迭代,从而加速产品上市进程。目前精准发酵技术的基础层面还有几点需要解决:高通量筛选+高通量生物的开发若需要形成闭环,硬件、数据、逻辑三个方面都要打通。我们需要全自动生物反应器的微循环,需要有基础的数据管理系统和软件,需要大数据和人工智能模型。

在传统研发模式中,即便拥有强大的高通量筛选手段与机器人自动化技术,仍难以短时间内完成后续的高通量发酵验证与工艺优化。钱钧弢提到,这是因为传统的摇瓶和台式发酵罐在传质、搅拌方式、供氧条件以及剪切力等方面与工业化生产条件存在巨大差异。而毫升级、机械搅拌式微型反应器(高通量小型生物反应器)可实现与大型发酵罐相匹配的工艺条件,为后续工业化放大提供可靠的数据基础,填补了从筛选到放大的技术鸿沟。

钱钧弢进一步介绍了迪必尔在全自动生物反应器系统上的技术布局。这些微型反应器通过自动补料、自动取样、数据智能管理与储存,不仅为工艺优化提供高质量数据,更大幅减少了人力与时间成本。为了解决数据标准化问题,迪必尔开发了整套数据管理系统(D2MS),实现从原始数据获取、元数据标注、到数据清洗与标准化的全过程管理。这些底层数据处理能力为未来引入大模型与人工智能算法奠定了基础。

与此同时,他也强调当前行业面临的挑战:生物发酵领域的数据缺少统一标准与命名规则,导致数据可复用性和数据驱动的决策效能受限。要真正实现从高通量筛选到精准发酵的闭环,需要行业上下游的共同努力,呼吁政府层面、头部 AI 企业与行业团体一起制定数据标准与工艺参数编码规则。

钱钧弢介绍到,迪必尔已在毫升级到万升级的发酵反应器放大与缩小模型中积累经验,通过数字孪生技术、动力学模型与高通量数据深度融合,实现了从原始数据到智能决策的闭环。这一过程包括硬件层面的自动化、数据层面的标准化和算法层面的优化与预测。钱钧弢认为在硬件、数据、算法三大要素的共同驱动下,精准发酵的时代正加速到来。




下一期的大会总结,再创将为各位带来上午场圆桌会议的精彩亮点内容整理。现场各位资深专家都分享了各自领域内对于 AI+SYNBIO 的深刻观点。非常精彩!敬请期待!



END \


再创丨Regenesis
机器,正在生物化;而生物,正在工程化。
 最新文章