引言 /Introduction
引言 /Introduction
生物制造与 AI 的紧密结合正引领着一场从基础研究到产业应用全面升级的科技革命。从生物大数据处理、复杂模型预测到仿真优化,AI 与合成生物学的结合不仅提高了科研人员的研发效率,还带来了全新的智能化、高效化和可持续的产业模式。
2024 年 12 月 6 日上午第五届合成生物制造产业大会主会场现场,罗小舟研究员主持了⌈AI 驱动生物制造⌋板块的相关主题演讲与圆桌讨论环节。第二天上午的内容精彩纷呈,干货满满。除了主题演讲外,还汇集了来自产业界、学术界和投资界的多位专家,共同探讨 AI+SYNBIO 的深刻洞见。现场座无虚席,气氛高涨。再创也在现场倾听了全程,并为各位读者们整理了 ⌈AI 驱动生物制造⌋ 板块的精彩亮点内容。
范锐、倪赫远 / 作者
孟凡康 / 审校
// 嘉宾简介
王晟
上海智峪生物科技有限公司CEO,本科专业为生物学,博士研究方向为理论物理,科研阶段专注于人工智能,多年来从不同视角专注于蛋白质结构预测领域。王晟致力于推动人工智能和计算技术在蛋白质预测与设计中的应用,并进一步转化为生物制造领域的实际成果。
林章凛
广东工业大学生物医药学院院长,曾任中国科学院合成所研究员。2002年回国后,在清华大学与自动化领域专家展开合作。2018年开始专注于人工智能的研究,并于今年发表了⌈利用AI技术从海量宏基因组数据库中挖掘新型酶⌋的新论文。
感兴趣的读者欢迎阅读:https://www.cell.com/cell-reports/fulltext/S2211-1247(24)00912-4
戈易帛
欧华律师事务所驻北京代表处资深顾问,专注于人工智能与知识产权领域法律服务。华律所于五年前成立了专为AI企业服务的AI委员会。其委员会汇聚了来自全球90多个国家的律师及AI领域科学家,专注于知识产权保护、法律合规及争议解决。
周伊
深圳市创新投资集团有限公司健康产业投资部总经理,专注于AI制药、AI医疗及AI+合成生物学领域的投资,拥有4年多的深度观察经验。此外在深创投负责管理深圳市“20+8”合成生物基金,致力于完善光明区合成生物产业链上下游布局。
阮银兰
澳大利亚国立大学物理科学与工程专业博士,亚波光子科技有限公司总经理,桂林电子科技大学光电工程学院研究员及博士生导师。阮博士在澳大利亚阿德莱德大学光子和先进传感研究所工作15年,主要从事微结构光纤和光谱生化检测研究。
许潇楠
达普生物董事长。达普生物作为一家上游仪器开发公司,专注于利用微流控技术和高通量设备进行诸如菌株筛选、小分子及抗体药物筛选和定向进化的生命科学仪器开发。达普生物也多年接触并关注下游 AI + 生物制造方向的赛道。
讨论一:
在学术界,AI 在合成生物学中的核心应用场景以及瓶颈
首先我想问一下王晟博士和林章凛教授,两位或多或少都是跟学术界联系得非常紧密的角色。从学术界的角度来说,你们觉得AI在合成生物学中的核心应用场景有哪些?以及在当前AI技术发展中,我们还面临什么样的瓶颈?
王晟:
王晟认为AI在蛋白领域的价值毋庸置疑,尤其是今年David Baker拿下诺贝尔奖更说明了其潜力。未来,AI在酶的设计和挖掘方面尤为重要,可能是推动产业化最快的路径。在学术界,AI已在酶设计中取得显著进展,如David Baker团队的RFDiffusion和ProteinMPNN,以及中国科学技术大学的Scuba和Abacus体系。这些工具突破了传统以自然序列为基础的挖掘方式,为凭空设计催化特定化学反应的酶奠定了基础。但王晟也多次强调,根据需求进行酶的凭空设计和制造是一个很遥远的目标。他认为相对“凭空设计”而言,通过 AI 辅助从自然界挖掘高效酶、更快实现产业化的路径更为现实。
他以近期在《Nature》上发表的从海洋中挖掘 PETase 的实例作为佐证,说明自然多样性的巨大潜能。他对于工业界人士而言,AI 在加速酶挖掘和优化上有着实际的近期价值,这有望进一步缩短研发周期、提升效率,从而推动生物制造走向成熟。
感兴趣的读者欢迎阅读原文:Chen, J., Jia, Y., Sun, Y. et al. Global marine microbial diversity and its potential in bioprospecting.Nature 633, 371–379 (2024). https://doi.org/10.1038/s41586-024-07891-2
林章凛:
林章凛教授从学术与技术实现角度梳理了 AI +蛋白的四大应用方向:蛋白分类、酶挖掘、定向进化和新蛋白设计。他指出,分类已经非常成熟;挖掘的技术也在慢慢成熟;但是定向进化方面目前整体突破不大。林教授分享了近期的相关工作:“Science最近发了一篇文章,这个酶(效果)也就提高了几倍。我们的工作稍稍有点不一样,我们可以提高16~80倍,但是它有不同的做法”
讨论中林章凛教授提到的文章是 EVOLVEpro,原文链接:https://www.science.org/doi/10.1126/science.adr6006
再创也找了林章凛教授近期的工作,感兴趣的读者欢迎阅读:https://www.cell.com/cell-reports/fulltext/S2211-1247(24)00912-4
关于新蛋白方面,林章凛教授指出改造酶其实并不容易,认为虽然用 New scaffold 去创造酶是未来发展方向,但就现在而言并不现实。
随后,林教授进一步指出,IT 领域中 AI 的成功部分是因为其物理空间数据相对有限且易于训练与验证,比如只需要训练80亿张人脸,就可以实现辨别每一个人;而生物学空间则庞大且复杂,比如一个蛋白的单突变可能有几千个,那么双突变的可能性就会急剧上升到几千万种,蛋白三突变更是可能会超过几百亿种。而这一特点就会给 AI 模型外推(extrapolation)带来巨大困难。
在这个部分,林章凛分享了一些非常务实的经验:AI在生物领域的应用不能直接套用IT领域的指标和方法,因为生物体系的数据复杂性和外推难度远超IT。解决生物学问题时,实验验证才是最终的标准,尤其需要用独立的数据库来验证模型的效果,而不是依赖与训练数据相似的数据库,这样才能让结果更可靠、更贴近实际问题。
讨论二:
在产业界,AI 在合成生物学中的核心应用场景。以及推动产业化过程中,AI+SYNBIO 应如何跟学术、投资、法律界互动才有利于产业发展?
许潇楠博士和阮银兰博士经过了长期的学术训练,且成功做到了成果产业化。想了解一下AI与合成生物学在基础装备制造或装备应用过程中,一些和您领域相关的核心应用场景有什么?以及在推动产业化的过程中,您认为该如何与学术界、投资界、法律界进行什么样的互动,才能有助于产业的发展?
许潇楠:
许潇楠表示,正如前面林院长所提观点,AI在合成生物学领域最核心、最难的还是高质量数据的获取与处理。
他结合其在生命科学仪器领域的经历进行了分享:“我们下游客户的AI应用通常集中于高通量筛选阶段。他们从极其庞大的突变体库(数量级可达10^9到10^6)逐步缩小范围,通过AI进行初步筛选后,再结合湿实验验证才能获得最终结果。这其实是很难的。因为这仅是初步环节。例如,在抗体开发中,即便筛选到具备亲和力的抗体,仍需进行动物实验、毒理与病理验证;目前,AI在这些后续步骤中的应用依然受限。合成生物学领域也面临类似情况:即便构建突变库并筛选出优良菌株,依旧要面对中试与放大的挑战,而这方面AI也还没有完善的数据,难以全面支撑后续开发流程。”
许潇楠博士认为有两个方面非常重要:第一,要做好下游验证,必须有清晰的标准和明确的数据采集要求,但其中的许多机理尚不明朗;第二,数据采集本身需要相应的工具和传感器,才能快速、高效地获取所需信息。
他表示,这两方面都是至关重要的环节,也是达普生物一直在推进的工作。
阮银兰:
阮银兰博士将话题进一步聚焦于在线检测与反馈控制技术,强调拉曼光谱分析在合成生物学研发中的重要地位。她指出,作为与合成生物学几乎同步成长的领域,拉曼光谱已经广泛应用于菌株筛选、过程监控以及工艺优化。通过提高仪器精度与算法分析水平,拉曼技术能够精准区分菌株之间的微小差异,为工业生产选择最佳菌株和优化培养条件提供实时参考。
然而,阮银兰博士也坦言,这一过程中仍存在巨大挑战。她分享了一个非常务实且具体的案例:“举个例子,我们浙江的一家客户正进行菌株改造,需要我们开发的24孔板高通量测试系统;他们计划构建5000个孔的菌株库,并配备100多台平行反应器。虽然我们的拉曼技术能很好地区分出离子束照射与其他改造手段对菌株的差异,但客户提出了更高精度的需求:即在同一个菌株、条件完全相同的24孔培养中,差异仅为40%时,拉曼也要检测出来。然而在实际扫描中,光源变化和光谱一致性会带来2%~3%的系统误差,留给分辨孔板差异的空间仅1%,难度很大。”
即使培养条件严格一致,同一菌株在 24 孔板间仍会有 40% 的差异,且拉曼检测中不可避免存在 2%~3% 的系统误差。要在仅剩的 1% 的筛选空间中进行高精度区分需要更先进的算法和更低的仪器误差。这不仅对技术开发者提出更高要求,也需要学界与产业界密切协作,通过创新算法或多维度数据集成,帮助企业在合成生物学领域实现真正的“优中选优”。
讨论三:
在投资人和律师看来,在 AI 赋能合成生物制造中如何规避法律风险、获取合理权益,以及如何提高投融资效率与产业价值?
罗小舟主持人:
我们刚刚听完了学术界两位代表、初创公司代表,以及两位产业界代表的分享。我之所以把法律界和资本界的代表留在最后,是因为从法律和资本的角度来说,正是有了前面企业与专家的成果,我们才能更好地进行赋能。
接下来请戈律和周博,从你们各自专业的角度,谈谈在投资、监管、法律层面,能给学术界和产业界提供哪些建议,或者说,你们在AI赋能合成生物制造方面有哪些洞察和观点可以分享给大家?
戈易帛:
戈易帛表示其所在律所在全球范围内为许多做AI的头部企业及中小企业提供过服务,也见证过不少共同的挑战与“踩坑”经历。今天聆听了各位科学家和产业人士对自家产品的热情分享,戈易帛表示:“我想借此机会和大家讨论如何切实保护我们的宝贵成果,以及怎样确保我们应得的权益真正落到实处。”
戈易帛律师从法律与合规的维度强调了数据来源和知识产权保护的关键性。AI 产业与此前的数字化浪潮相比,更需要从源头起就对数据的合规性进行把控。当企业希望运用第三方或公开来源的数据进行模型训练时,需提前明确数据使用权限、法律责任分配和后续成果权属。如果在早期没有做好合规设计,待产品接近上市或完成研发后再处理这些问题将变得十分困难。
接下来,戈律师还提到开源技术和数据的“陷阱”。尽管开源平台为企业快速搭建 AI 模型提供了便利,但后期如果产品涉及商业化,则可能面临使用限制、专利权纠纷或收益分配不清的问题。此外,他指出目前各国对 AI 生成成果的可专利化或版权化仍存争议,这意味着企业必须提前制定知识产权战略和证据保存方案,以便在国际竞争中赢得更多主动权。法律领域的预设、规划与防范,将为企业在后续资本运作、市场拓展和产业落地中提供不可或缺的保障。
在AI与和合成生物学正在快速野蛮发展的时代,再创认为这方面的警示和经验分享非常有帮助,因此在这里整理并分享了戈律的原话内容:
咱们一直在提,数据很重要,没有数据,AI不聪明,这个产业发展不了。但这个数据来源是很复杂的一件事,目前在产业里无非就是三种来源:一是自有数据:这是最理想的,既可充分掌控,也无需担忧合规风险,但数量通常有限,难以满足后续大规模研发需求。二是第三方数据:第三方数据或公开抓取的数据里就有很多法律问题。第三方的数据来源是不是合法合规?有没有权利把这个数据转让或分享给你?你和他之间的合同,有没有对于双方谁在什么样的情况下拿到这个数据,进行什么样的使用,以及产生出来的效益归谁,有没有商量清楚?三是公开抓取的数据。从公开渠道抓取数据的时候,公开渠道的数据是否可以给你抓?你的爬虫手段也好,其他手段也好,是不是都是合规的?这些都是考虑的问题。
大家今天一直在提诺奖获奖的AlphaFold。它在早期训练数据时,在欧美等国都曾有过争议和官司,虽然最终妥善解决,但也表明:即便像谷歌DeepMind这样背靠大企业,在抓取公开数据、与英国政府签订数据分享协议等相对公开透明的情况下,依然会面临数据来源的纠纷。对我们中小企业而言,类似问题就更为复杂,需要更加谨慎地评估与应对。
等到数据来源问题解决后,很多企业开始基于自有模型或第三方模型来处理数据。可常见的情况是,企业在把数据放到某个平台上跑之前,从没仔细看过平台的《合同条款和前提》,也没和平台方明确约定清楚相关内容,比如说:我上传的数据今后是否可以被平台方使用?平台方是否能把数据提供给其他客户?其他客户使用这些数据后的成果与自己究竟是什么关系?后续产生的成果中,如果我的训练内容成果已被嵌入平台上,应该怎样剥离或共享权益?结果往往是,等到最终成果出来后,各方会因为缺乏事先约定而陷入争议,甚至“扯皮”。这时再处理问题,因成果已深度依赖平台,已经很难做出彻底的剥离,只能做一些“折中”或“妥协”——企业本来能拿到 100% 的权益,如今也许只能得到 80% 或 50%,对企业而言是非常痛心的一件事,一定要在最开始就弄清楚这些事情。
另外,开源平台也备受企业关注。开源的确有诸多优点,但一旦使用开源技术,“开源基因”会一直延续下去,后续所有使用都必须符合非商业目的或带有开源标识,这会对后续的商业应用与许可环节造成限制,对科技成果产业化可能带来较大影响。因此,企业在使用任何平台、工具或技术时,都应事先充分了解其条款与合规要求,避免后续陷入被动。
最后,现在已有很多国家开始探讨立法和司法实践。
传统的知识产权体系主要保护以人为中心的创造成果,无论是著作权还是专利,都强调“人”的贡献。然而,随着 AI 的出现,尤其在美国等国家开始反思:“人的创作与智慧究竟体现在哪儿?”。当 AI 已经“聪明”到可自行生成内容——不仅仅是简单的归类、分类、检索,而是真正的创造,那么由 AI 产生的结果能否被纳入专利或版权保护范畴?
我们做过在全球主要司法管辖区的平行检索与调查,发现各国政策思路大相径庭。有些国家(比如中国)或许更注重产业发展,只要能证明“AI 的产出过程中有人类的投入”,那么整体成果就能获得知识产权保护。而有的国家则更“激进”或严格,要求审视人类智慧贡献的占了多大的比例。
以美国的激进案例为例,许多科学家在跟我们说,现在的政策是恨不得回到多年前。在过去为了申请专利,科研人员常常记录下各项操作流程和时间点,好比“专利手记”。这套古老的制度已经很久没人用了。但如今AI 大热,为了证明人在 AI 运算中的介入程度,又重新活跃起来:在AI进行快速自动计算的时候,人要不断记录在哪个节点有了一些人类的智慧投入,人到底在多大程度上影响了AI产出的结果,这套老办法又被搬了出来。
因此,在实验室及产业应用中,科研及技术人员的每一步操作,都与今后可能受到的法律保护紧密相关。一旦成果产出而过程证据缺失,再主张权利就很困难。同时,投资方进入后,会对这些流程做尽职调查,一旦发现问题,或对将来成果的权益划分产生歧义,就会引发更多法律纠纷。
周伊:
周伊首先分享了这几点AI相关的工具在生命科学相关的市场观察,他认为 AI 工具的应用呈现出一种轮动的过程:最初是 AI 医疗,从筛选 CT、核磁的影像到检测眼底病变;随后延伸到 AI 制药,先是针对小分子药物,后来又应用于大分子抗体。如今,则发展到 AI 与合成生物学的结合,重点围绕蛋白和酶的设计与改造进行探索。
作为投资人,周伊直言当前合成生物学与 AI 融合的企业中,不少企业存在过度强调 AI 的现象,缺乏深厚的数据积累与算法创新能力。周伊表示,许多公司只是借助开源数据和开源模型进行简单组合,真正掌握独特技术与核心数据的企业并不多,他作为投资方更看重那些能自主构建数据护城河,拥有独特算法优化能力,以及具备从实验室到产业化全链条思维的团队。
周伊分享了其在合成生物学+投资领域的观察,他发现大多数合成生物公司都在宣称自己用AI工具,但仔细一看却存在不少问题:1. 算法依赖开源:不仅缺少自研或改进算法的能力,大多直接用开源算法;2. 训练的数据来源也多为开源:自有数据很少;3. AI的作用被过度强调:部分公司似乎将AI当成唯一亮点,用来“讲故事”或提高估值,宣传说“通过AI能多快好省地完成酶设计”。然而,从实验室到生产过程的链条非常长,AI的优势会被逐步稀释,不应该过度强调AI这个工具。周伊强调,AI 工具只是推动产业升级的一个环节,而非全部。
他认为,创业团队反而更需要加倍重视其他短板,包括工艺开发能力、大规模发酵/罐装能力、选品能力、市场分析能力(比如分析市场规模、成本优势等)。周伊表示,对合成生物学企业的考量不仅在于“AI 有多强”,更在于该企业是否能将 AI 与传统生物制造流程相结合,从而在产品选择、成本控制、市场策略方面形成一套高效、可持续的商业逻辑。
讨论四:
对未来 5-10 年的 AI 发展的预测
罗小舟主持人:
王晟博士坚持认为,未来 5-10 年内,AI 在酶工程领域将迎来重大突破,甚至可能比预期更快实现。他强调,相较于细胞工程,AI驱动的酶工业更容易实现大规模产业化落地,推动整个生物制造行业的效率与产能提升。
首先林院长对周伊发表的观点并不认可。林章凛认为,AI将成为合成生物学的核心技术,尤其在定向进化、蛋白改造中不可或缺。他提到了之前的案例并进行展开说明:“蛋白质的单突变就有好几千个,双突变更是上千万个。别说一个大学无法完全研究,就算是一般的公司也负担不起。我们要如何在几千个单突变中进行学习?人力显然难以胜任。但我们拥有的数据表明,AI能够从几千个单突变所带来的海量信息里,挖掘出我们肉眼或人力无法轻易发现的规律。”林教授认为,未来合成生物学领域将出现更多利用 AI 完成定向进化和蛋白优化的案例,甚至有望催生新的诺贝尔奖级突破。
戈易帛律师指出,企业应首先应专注并深耕自身所处的产业,AI 的训练与应用需因地制宜,不能机械地复制其他行业的经验。同时戈律师提醒,在AI 产品开发与应用过程中要高度关注数据合规、知识产权、反不正当竞争等法律风险。AI自身特点决定了其中涉及的数据来源、使用权益、隐私与合规等问题相当复杂,必须从根本上做好防范与管理。企业应尽早布局,确保未来产业化时不因法律障碍而受阻。
周伊从投资角度回应了林教授的不同观点。他并非否定 AI 的潜力,“我并非不看好 AI,而是由于见过太多项目缺乏自主研发内容,这才是真正的核心问题” ,认为大量公司出现同质化竞争问题:仅依赖开源算法和数据,无独特技术、无核心门槛。他希望更多合成生物学公司能提升自身的 AI 研发能力,构建数据与算法护城河,以确立竞争优势。
许潇楠强调“AI驱动生物制造”这一主题应落实到实处,AI 是工具,但除此之外,还有诸如高通量筛选设备、自动化实验仪器等多种服务于合成生物学发展的工具需要关注。这些工具的共同目标,都是为生物制造提供助力,推动整个产业更快更好地向前发展。她认为,在实际生产与研发活动中,不必过分纠结于 AI 的重要程度,而应重视最终产业产出和市场价值的提升。
阮银兰以市场规模和产业价值为切入点,指出生物医药、合成生物学、生物能源和生物基材料领域潜藏3.5万亿级的市场空间。通过 AI 的算法与在线数据、反馈控制与工艺优化等方面结合,每年有望为国内产业增添1000~3000亿元的新增产值。