工艺研究的最终目的不是实验室内的精致操作,而是通过工艺优化,以更高效地服务于商业化生产。
我本身是制药行业的老兵,在制药行业工作已经20多年,对制药非常了解,从药物发现到CMC工艺研究,到商业化上市,全部都参与过。制药的传统技能对于我来说已经非常固化了,本来也接触不到数字化、智能化,但是机缘巧合下,在5年前我开始尝试自动化、数字化和人工智能等技术与制药行业相结合,让我看待制药行业有了全新的视角。
这是新药研发的路径示意图,制药行业的朋友们应该非常熟悉。今天我会重点以临床期间CMC研究这部分为主,通过CMC研究过程的一些例子,跟大家分享我的理解,以及对这些数据的认识。
CMC现状分析
这是基于我自己的感受画的一个图。CMC流程是从小分子领域开始的,从Chemistry开始,到Manufacturing、Controls。现在它变成了通用的标准名词,不再仅局限于小分子。大家谈大分子以及生物都会用到CMC,核心是从实验室工艺研究,到生产放大以及整个工艺过程的控制。
Chemistry是指实验室工艺研究。工艺研究的最终目的不是实验室内的精致操作,而是通过工艺优化,以更高效地服务于商业化生产。当药物研发进入临床阶段,生产规模急剧扩大至公斤级、百公斤乃至吨级,这要求前期的工艺研究不仅要满足当前临床用药需求,还要为将来商业化生产奠定坚实的技术基础。
从实验室到生产之间有着巨大鸿沟,为弥补这一鸿沟,我们采取了多重措施。首先我们会运用多种控制手段,并结合对工艺的理解试图填平鸿沟。比如CCP(关键工艺参数)研究,基于大量实验数据,识别并严格设定影响工艺稳定性的核心控制点;同时也会借助一些工具,比如DOE工具等,以帮助工艺化学家优化工艺。此外我们还可以通过在公斤级实验室进行适度放大的批次实验,比如会去Pilot plant做大规模的放大研究,积累宝贵经验,进一步验证并优化工艺。
我们还能做什么呢?比如在工艺方面有很多经验丰富的专家,他们会分享交流遇到过的各种状况;另外,大公司内部都会有工艺挑战会,在不同阶段,临床一期之后、临床二期之后、临床三期之间都会有工艺挑战会,联合多个部门的专家对整个工艺过程进行讨论。以上旨在深化对工艺过程的理解,缩小实验室与生产之间的差距。
有人曾构想我们是否应培养“机器人化学家”。这一设想源自机器人相较于人类的显著优势:其稳定性远超人类,能在工艺开发过程中避免人为失误,确保所有环节精确记录,无一数据遗漏,目前该设想已在不断实践中。
2020年库卡公司与利物浦大学在《Nature》杂志上发表了一项突破性研究,他们成功部署了一台机器人在实验室环境中,连续一周高效运作,完成了超过600项实验,这一成果令人瞩目,不仅展示了机器人在科研领域的巨大潜力,也激发了业界的浓厚兴趣。我们也亲自探访了库卡总部深入了解这项技术,如果有感兴趣的朋友,可以联系我私下交流。但是机器人、自动化在数据的维度和丰度上却作用有限。
基于以上丰富的手段,从实验室的工艺开发到生产制造的现状是什么样子呢?在过去5年的统计中,我们对一家非常典型的业内公司进行了分析。当研发从实验室转移到中试(即200升到2000升的规模),出现问题的案例中,工艺问题所占比例为42%。这其实还是一个比较好的数字,很多企业工艺出问题的概率要远高于这一数值。在业内有时为了追求工艺的快速放大生产,给临床提供样品和物料时经常会出现“带病去放大”的现象。
即使有这么多工具,对工艺研究到目前为止仍存在模糊地带。如何越过这个鸿沟?为什么会出现这些情况?这个图很有意思,左边是我们在实验室做反应,右边这张示意图是在工厂,这两者之间有非常多的不匹配,除了工艺本身之外,还有化工放大、三传一反各种各样的问题。到底怎么样才能搭一个桥梁,尽量减少这些问题呢?我想跟大家分享一下我的观点,叫过程数据的分析。
第一点,按时间轴来看,过程数据是实时过程的变化。很多时候我们都是在某个节点做一些研究,收集结果的数据或者中控点的数据,但是这些数据对整个工艺来讲是远远不够的。工艺的数据会随着时间轴X轴的持续,实时发生变化,所以最重要的是收集到连续的过程数据,这对整个工艺认知有非常大的帮助。
第二点,采集过程数据中最关键的是要有多维数据。多维数据是什么?例如在做实验时可能会有一个温度数据,所有数据种类中,温度数据只是其中的一个维度。但当真正描述一个工艺时,它的维度其实是非常多的。即使温度数据是连续采集的,但仅仅一个维度的数据,来描述一个工艺过程是远远不够。再举一个目前行业的例子,一家比较典型的大制药企业,工厂整个生产车间用到的所有传感器种类大概只有4~6种传感器。大家可以想象,这么复杂的工艺过程,中间只有有限维度的数据,如何能描述好工艺。何况不同维度数据的交互影响、因果关系更是没有得到研究。
案例分享——葫芦脲的工艺研究
这是我们内部做工艺开发研究的例子——葫芦脲的合成,从化学角度来看,这个反应是非常简单的。
但化学反应和工艺完全是两个概念,在整个工艺的CMC方面,合成的重要性大概只能占到30%。合成的主要目的是在体系内有一定量的产品出现,但是工艺研发的最终目的不仅是确保反应阶段有产品,更重要是把产品从体系中提取出来,以及确保整个过程中工艺的稳定性和质量的一致性。所以真正在做工艺研究的时候,需要稳定的生产过程,确保能把产品提取出来,才是我们讲的工艺开发。
葫芦脲虽然化学合成上看似很简单,但在工艺上比较难。首先这个体系没有有效的中控手段,又用到强腐蚀性的浓盐酸,高黏度的反应体系,导致搅拌效果非常差。在合成葫芦脲的过程中,我们运用了两款过程数据采集和控制设备,并把这两款设备应用在葫芦脲工艺的开发过程中。
这两款设备,一款是右上角叫实验副驾驶,右下角是在线拉曼光谱。这两款设备是我们公司的两款产品。反应副驾驶采集和控制所有连接设备的工艺参数,光谱监控整个过程中分子层面的变化。
用这两款设备做工艺研究的时候,我们得到了什么样的数据?这张图是一个数据集合,X轴是时间轴,Y轴是多维数据放在一起。首先我们可以看到红色和绿色两条线,这两条线是整个反应的内温和外温,红色的是内温,绿色是外温。浅蓝色线是整个反应搅拌速率的变化。深蓝色线是其中一个原料浓度的实时数据,这是在分子层面去看其中一个物料的变化。黄色线是中间体和产品浓度的实时数据。
蓝色线所代表的原料浓度值变化是通过在线拉曼光谱仪,实时获取原料特征拉曼光谱的变化,通过咸数人工智能算法实时处理,将复杂的光谱图像转化成原料在整个反应过程中浓度的变化。
经过几个实验就会收集到工艺过程中的多维信息,并找到它们之间相互的因果关系。比如最开始这个反应的温度外温升到80度的时候,会发现反应在逐渐融清。因为反应体系是比较粘稠的,搅拌没有开,转速在0的位置上。当它逐渐溶清后,会发现其中一个原料在逐渐溶解,它的浓度开始逐渐增加。增加到一个峰值后,随着反应热量的释放,温度逐渐升高,原料快速参与反应,反应体系逐渐往澄清变化。
当搅拌打开,大量原料被搅拌带动,持续溶解,带来原料浓度的第二个峰值,随着原料持续反应,反应达到澄清,同时内温远超过了外温,说明这个反应是一个剧烈的放热反应。当时,这个反应的规模是500毫升,当外温控制在80度的时候,内温可以从80度放热升温到96度。如果这个反应放大到5L规模的话,很有可能物料就从反应瓶里面喷出来了,会造成非常严重的安全事故。
第一个阶段,原料反应非常快,大概在14分钟之内,原料就已完全反应完毕,并生成了中间体。第二阶段进行脱水,外温始终比内温高,并维持一个固定的温差,这个阶段反应是一个吸热反应,需要热量来推动反应进行。这和第一阶段完全不一样,第一阶段放热会非常剧烈,需要去控制热量的释放,不然会造成安全事故。第二阶段是需要给予热量,使反应可以顺利进行。
多维参数同时采集,就能够快速识别出工艺的关键控制点。比如要控制第一阶段的热量释放,外温不能升的太高,维持内温在75度。搅拌不能一下开得太大,因为当粘度很大时,搅拌桨可能会卡死甚至断掉,需要基于反应体系浓度变化,逐渐增加转速。基于以上所有的多维数据,我们对该反应从分子层面到宏观层面都会产生深刻的理解。
分子层面是指光谱,实时监控原料、中间体和产品浓度的变化;宏观参数,比如内外温、搅拌的实时收集和控制。当把这些参数之间建立起联系,就找到了调控手段。后续把在线监控(光谱、温度、搅拌等)这些手段应用到500升的规模,整个过程非常顺利,没有发生喷料、冲料的安全事故,并且产品质量和实验室完全一致,通过这一手段顺利越过了从实验室工艺到生产的鸿沟。
制药行业技术的现状及发展路径
基于以上这个案例的分享,目前来看,从制药3.5时代到制药4.0时代,我们处于3.5~4.0偏下的过渡态。3.5时代的样子是:有固定的原料、固定的工艺、插入几个传感器,可能是温度传感器,压力传感器,得到产品,最后交付产品。在过程中让所有参数严格精确固定下来,离线取样监控,希望通过这种方式让产品质量得到保证。但是在这个过程中,最后的产品质量往往会发生变化。原因是实验中固定的参数并不能简单直接的转移到生产,而生产中的参数和产品质量之间的因果关系,并未得到本质理解。所以生产中往往要摸索很多批次,才能将工艺最终固定下来,而且每个参数对产品质量、收率的影响权重也是不清楚的。造成了大量的时间损失和质量损失。
目前,通过多维在线监控手段(比如光谱、多点温度、压力、转速、滴加控制、流量、电导、黏度等等),可以实时监控反应过程变化,找到分子层面的转化和宏观参数之间的因果关系。通过这样的手段,即使原料品质有些许波动,生产控制参数有些许偏离,但都可以实时调控,从而获得稳定的收率和产品质量。真正做到了质量源于设计(QbD)的制药理念。
多维数据实时采集的实施流程
综上所述,可以看到整个工艺开发中过程数据是非常重要的。首先是基于底层的实验设计,其次是数据采集,这个过程是第一步。底层的多维实时数据采集是整个实验室工艺优化的第一步,也是后面所有闭环工作的基石。
第二步,在于选取合适的在线光谱仪及其他多维在线数据传感器,并结合实验设计,全面洞悉实验全程的变化。在此基础上,确定数据采集策略与传感器布局,包括传感器的种类、位置及采样点,这需要深厚的行业洞察与扎实的理论支撑。目前,我们正致力于解决现有仪器设备和工艺研究不匹配或市场空缺的问题,通过融合行业知识与底层原理,创新性地构建全新的在线智能设备。此设备如同桥梁,高效汇集多维数据,助力工艺优化,跨越实验室研发与大规模生产之间的鸿沟,实现工艺的无缝衔接与转移。
第三步是采集实验与生产的实时数据,核心在于确保采集过程的稳定性,以最小化误差与干扰。面对如在线光谱数据等高速、大量的信息涌入,传统人工解析已力不从心。需要在采集数据过程中,通过人工智能算法,做大量的数据前处理工作,使采集的生数据可以在后续数据分析中被顺利使用。
最后一步,需将光谱数据与其他多维数据整合,依托历史数据库与基本原理,结合行业专业知识,进行多维数据的深入分析,从而构建出控制参数与产品质量和收率间的因果关系,找到工艺的控制点和控制逻辑,完成闭环流程。随后,基于分析结果优化实验设计,指导新一轮数据采集和分析。目前我们公司也具备多目标工艺优化算法,为实验设计提供强大支持。
Q&A
席友:4.0到底什么时候能实现,很期待看到这一天,您预计还要大概多长时间,这个过程是怎么样?
彭伟:我预计可能还要5~10年。因为制药行业和其他工业最大的区别在于这个行业是法律法规监管特别重的行业,哪怕一些微小的变更都要符合监管部门的要求。比如我们的在线光谱设备,在工厂实时的效果是很不错的,但是在工厂安装实施过程中,需要沟通生产、QC、QA、设备部等各个部门,做一系列的变更。同时,该收集哪些数据、多少批次的数据,如何同原有的离线监控手段做数据桥接,怎么样能够符合监管部门要求,这些我们有很多实际落地的经验,但推动整个行业,还是需要一些时间。
席友:如果只做自动化的话,对我们数据有什么帮助,它和数据之间是一个什么关联?
彭伟:就自动化而言,很多时候我们从外面看机器人跑来跑去的做实验,感觉非常棒,觉得这就是智能化,但是仔细分析之后,会发现它更多是分解人的动作。如果在这期间没有加入和工艺之间相关的传感器或智能设备去采集多维数据的话。虽然它看似在跑来跑去很繁忙,但是在整个过程中无论从数据维度上来讲,还是从时间轴上来讲,都没有工艺数据的增量。因为底层的仪器设备没有变,只是动作通过机器人完成了,这是我觉得非常重要的一个思考点。机器人肯定可以帮助我们做很多事,比如早期的高通量筛选是好的,底层设备也比较成熟,更多的是个体力活。但在CMC阶段,本质上要对工艺的整体描述特别清楚,这才是核心,即数据要有多维,数据量要极度增加。这样做数据分析(不管是智能分析软件还是人脑)才能有基础。
席友:AI来源于数据分析自动化产生大量数据,大大加速了数据迭代。
彭伟:我补充一点,自动化看似产生了很多数据,但是到底采集的是不是工艺相关的数据,是很重要的。如果它只是帮我们把实验动作流程做完,过程检测产生数据的来源还是原来已有的仪器设备的话,那实验还是在模糊的角度去做分析,我觉得只有丰富底层的数据,并运用该行业细分垂直的模型做分析,才是特别适用于行业的。
全文完
往期嘉程创业流水席线上活动现场
往期回顾
嘉程资本
握手未来商业领袖
BP 请发送至 BP@jiachengcap.com
微信ID:NextCap2017