引言 /Introduction
引言 /Introduction
生物制造与 AI 的紧密结合正引领着一场从基础研究到产业应用全面升级的科技革命。从生物大数据处理、复杂模型预测到仿真优化,AI 与合成生物学的结合不仅提高了科研人员的研发效率,还带来了全新的智能化、高效化和可持续的产业模式。
2024 年 12 月 6 日上午第五届合成生物制造产业大会主会场现场,罗小舟研究员主持了⌈AI 驱动生物制造⌋板块的相关主题演讲与圆桌讨论环节。第二天上午的内容精彩纷呈,干货满满。除了主题演讲外,还汇集了来自产业界、学术界和投资界的多位专家,共同探讨 AI+SYNBIO 的深刻洞见。现场座无虚席,气氛高涨。再创也在现场倾听了全程,并为各位读者们整理了 ⌈AI 驱动生物制造⌋ 板块的精彩亮点内容。
范锐 / 作者
孟凡康 / 审校
演讲一:
自然科学大数据平台 DataX 的构建与应用:从专用搜索引擎到数据库生态系统
AI for Science:指利用人工智能技术加速科学研究的进程,通过模拟、预测、优化等手段,帮助科学家解决传统方法难以处理的复杂问题,从而推动科学发现和技术创新。 AI for Science 的三大基石是数据、算力和算法。如何获得需要的数据,且是轻松获得有用的数据?这是 AI for Science 需要解决、跨越的第一道门槛。
演讲二:
数据、自动化与多智能体:AI 驱动合成生物制造发展的机会与未来
2. 自动化在数据产生过程中所起到的作用和价值:降低数据获取门槛、提升实验通量与数据质量,从而为 AI 的高效落地与产业升级提供坚实的数据基础。
AI 如何在分子水平调控上与合成生物制造结合? 如何利用 AI 对细胞状态进行识别,并结合过程优化(如贝叶斯优化、强化学习)实现更好的工艺? 在产业化方面,如何对已有生物制造产物进行再次加工,利用 AI 实现更大的产品价值?
赖力鹏分享了在晶泰内部,AI 用于核酸、多肽以及酶的设计和优化案例,并说明了在特定数据集支持下,AI 可在分子层面实现功能优化与性能提升。比如在多肽设计这一特定领域里,通过将公开数据重新整理成专有数据集,晶泰科技的 AI 模型(X-PepGen)在特定任务上表现优于 ProteinMPNN 模型。赖博还介绍了其他一些例子,欢迎读者们查看视频回放了解。
ProteinMPNN:David Baker 组用于蛋白设计的方法,一个基于深度学习的序列生成模型。感兴趣的读者欢迎阅读 https://pubs.acs.org/doi/10.1021/jacs.3c10941
接着,赖力鹏从三个维度介绍了 AI 如何在细胞层面进行探索的经验。他们针对单细胞数据建立基于图像、组学和知识图谱的分析平台,提升了细胞表型及机理研究能力。1. 分析图像数据:基于高内涵单细胞影像的深度学习方法。晶泰在原有 DeepProfiler 和 CellProflier 方法基础上引入 Transformer 的注意力机制,从海量且有噪音的单细胞数据中提炼有价值信息。2. 组学分析:转录组分析大模型。在这一层面,晶泰为了更好地对长序列进行处理,采用更适配转录组数据处理的模型架构(如 MAMBA)预测基因扰动效应。3. 对图的处理。为了从药物表型变化反推它可能的作用通路以及它在细胞内蛋白作用的通路,晶泰收集了大量的数据并构建了大规模知识图谱。通过知识图谱于深度学习的结合,帮助识别了药物作用机制与靶点,从而实现对细胞状态更准确的观察与标注,并为后续工艺优化和控制奠定基础。
接着,他提到了未来 AI 落地的两个重要方向:1。由大语言模型驱动的多智能体(Multi-Agent)应用,即通过不同领域的智能体协同工作,加速从数据处理、科学假设验证到实际方案落地的全流程。2. 将 AI 与自动化作为类似互联网的基础设施,打造开放共享的产业生态体系。
晶泰科技:
晶泰科技成立于 2014 年,起源于波士顿。晶泰科技与中国的工程优势相结合。目前,公司在深圳、北京、上海及海外设有研发或商务中心,拥有约 700 名员工和大型自动化实验室。其核心领域是生物医药,同时将 AI 与自动化技术拓展至化工、新能源、新材料等多个新兴领域,并与全球逾 300 家产业伙伴深度合作。今年 6 月,晶泰科技在港交所成功上市。借助内部孵化(如科迈生物)与广泛投资,晶泰正构建一个基于 AI 和自动化的平台化产业生态,涵盖新药研发、新材料、化妆品、食品、农业等领域,助力产业创新与升级。
演讲三:
华为云盘古大模型在生物医药领域的实践成果+AI for Science 平台的未来规划
在中国,百度、字节跳动、腾讯等知名企业都开始布局其生命科学领域相关的 AI 模型。华为也不例外。在这个环节的主题演讲中,华为带着盘古大模型来到了现场,向各位报告盘古大模型的进展。华为云 AI4S 生物领域产品总监王冰首先介绍了华为盘古大模型的概况:华为云的盘古大模型(下称盘古)是其在人工智能领域的重要布局,已迭代到 5.0 版本,包含计算机视觉(CV)、自然语言处理(NLP)、多模态、预测以及科学计算五大基础模型。这些模型在产业中已实现一定程度的应用。
盘古在生物医药领域聚焦于三大方向:1. 药物发现与设计。2. 靶点发现与先导化合物优化。3. 天然产物分子表征与应用。
在药物发现与设计方面,盘古以 17 亿小分子和 1 万余条蛋白数据作为训练基础,数据和参数规模巨大。目前在药物研发预训练大模型药物发现任务中,王冰称有 20 多个药物达到了当前业界的最佳表现(包括虚筛分子库、CPI、ADME、分子优化)。简而言之,华为盘古药物分子大模型以海量数据与参数为基础,具备更高的药物小分子预测精度和广泛适用性;同时通过云端服务实现“开箱即用”,无需配置软硬件环境,节省成本。此外王冰还提到,盘古能够在保留原有分子活性的前提下,能快速对分子结构进行优化,实现药物专利突破。
现如今,盘古辅助制药分装平台已内嵌了其训练的药物分子大模型,该平台现在支持药物研发一站式服务包括靶点发现、苗头化合物发现以及先导化合物发现等。除此之外,基于盘古药物分子大模型,华为还孵化出了天然产物分子大模型。同时,通过与天士力合作,增训了 350 万的天然产物数据,从而达到对天然产物进行表征。
王冰表示,华为云 AI for Science 平台在设计理念上以昇腾云大算力为基础,目标是为研究人员提供一站式开发平台。底层层面,平台利用国产的昇腾算力满足本土科研需求(昇腾:华为自研芯片)。在上层架构中,平台为各类科研场景提供具备行业特性的开发套件和工具,使科研人员能够快速将 AI 技术应用于实际研究。此外,王冰称,通过完善的一站式流程,用户可轻松完成模型训练、微调与部署推理等环节,实现“开箱即用”的模型能力。
演讲四:
硬件、数据、算法:高通量工艺开发与精准发酵
迪必尔智能科技(深圳)有限公司董事长钱钧弢先生发表了主题为《硬件、数据、算法:高通量工艺开发赋能精准发酵》的演讲。他指出,当下的生物经济发展正逐渐走向高精度与高通量的研发方向,生物反应器在这一进程中扮演着至关重要的角色。
钱钧弢坦言,在企业创业初期,迪必尔试图解决从菌株构建到高通量筛选、再到中试放大的全流程技术瓶颈。然而,事实证明,试图打通全产业链过于困难,导致企业运营压力加剧。痛定思痛后,迪必尔调整了战略,聚焦于解决产业链中最核心、最困难的问题--高通量工艺开发和精准发酵。
高通量工艺开发面临的核心挑战包括:
1. 消除放大差异:实现从小型研发设备到工业级量产设备的条件匹配。
2. 打通高通量筛选与高通量工艺开发的瓶颈:解决菌株从筛选到发酵验证的衔接难题。
3. 跨越两到三个数量级的通量差距:从数千株菌的筛选扩展到数万株菌的快速验证和优化。
传统的发酵工艺多聚焦于传统食品(如啤酒与面包),但随着基因工程、代谢工程和基因编辑技术的不断突破,生物制造的重点逐渐转向生产新型替代蛋白(如母乳寡糖),精准发酵成为核心方向。钱钧弢强调,精准发酵则不仅是产物简单的增产扩量,而是通过硬件(生物反应器)+数据(高质量数据管理)+算法(模型构建与优化)的深度融合,实现高效率、高通量的研发迭代,从而加速产品上市进程。目前精准发酵技术的基础层面还有几点需要解决:高通量筛选+高通量生物的开发若需要形成闭环,硬件、数据、逻辑三个方面都要打通。我们需要全自动生物反应器的微循环,需要有基础的数据管理系统和软件,需要大数据和人工智能模型。
在传统研发模式中,即便拥有强大的高通量筛选手段与机器人自动化技术,仍难以短时间内完成后续的高通量发酵验证与工艺优化。钱钧弢提到,这是因为传统的摇瓶和台式发酵罐在传质、搅拌方式、供氧条件以及剪切力等方面与工业化生产条件存在巨大差异。而毫升级、机械搅拌式微型反应器(高通量小型生物反应器)可实现与大型发酵罐相匹配的工艺条件,为后续工业化放大提供可靠的数据基础,填补了从筛选到放大的技术鸿沟。
钱钧弢进一步介绍了迪必尔在全自动生物反应器系统上的技术布局。这些微型反应器通过自动补料、自动取样、数据智能管理与储存,不仅为工艺优化提供高质量数据,更大幅减少了人力与时间成本。为了解决数据标准化问题,迪必尔开发了整套数据管理系统(D2MS),实现从原始数据获取、元数据标注、到数据清洗与标准化的全过程管理。这些底层数据处理能力为未来引入大模型与人工智能算法奠定了基础。
与此同时,他也强调当前行业面临的挑战:生物发酵领域的数据缺少统一标准与命名规则,导致数据可复用性和数据驱动的决策效能受限。要真正实现从高通量筛选到精准发酵的闭环,需要行业上下游的共同努力,呼吁政府层面、头部 AI 企业与行业团体一起制定数据标准与工艺参数编码规则。
钱钧弢介绍到,迪必尔已在毫升级到万升级的发酵反应器放大与缩小模型中积累经验,通过数字孪生技术、动力学模型与高通量数据深度融合,实现了从原始数据到智能决策的闭环。这一过程包括硬件层面的自动化、数据层面的标准化和算法层面的优化与预测。钱钧弢认为在硬件、数据、算法三大要素的共同驱动下,精准发酵的时代正加速到来。