SFC自动手性方法筛选

学术   2024-05-15 10:45   中国香港  

SFC自动手性方法筛选

阎作伟 编译

作为手性分离实验室工作流程的一部分,作者建立了一个自动筛选过程,首先以常规测试 10 种手性超临界流体色谱 (SFC) 方法(五根色谱柱和两种溶剂)。通过单位自己定制的软件工具来实现外消旋体自动方法筛选,评估所得色谱图并生成对映异构体分离报告。该过程在很大程度上是自动化的,从而实现了高效可靠的实验室过程,对人工干预的要求低。应用这个自动化流程对 756 个结构差异性大的外消旋体的测试集进行了筛选,并对来自实验室的 2667 个专有样本也进行了筛选。统计分析显示,高达92%的测试外消旋混合物可以通过至少一种筛选测试条件成功分离。通过确定最佳方法筛选顺序、重新定义最佳色谱柱组合以及考虑项目减少分析物结构变化的特定调整,进一步提高了开发效率。本研究说明了条件一致的色谱数据集可用于手性方法的开发和决策,可通过自动处理和统计分析加速和促进分离对映异构体。

引言

科学证明,对映异构体的生物活性可能存在很大的不同,从气味或味道到药理学性质都有可能不同[1,2]。对映异构体都必须在药物发现早期过程中进行测试,这使得快速供应潜在候选药物的单一对映异构体至关重要[3]。以手性固定相(CSPs)对外消旋体进行色谱分离为完成这项任务的首选方法,因为它是同时获得高产量和高纯度的两种对映异构体的最普遍适用和最有效的方法[4]。在药物开发的这一阶段,替代方法,如选择性合成或酶催化或结晶分离外消旋混合物,往往过于费力和耗时[5]。最早的手性制备分离是通过高效液相色谱(HPLC)进行的,但超临界流体色谱(SFC)在过去几年中变得越来越重要,在制药工业的mg到kg级分离领域广泛应用[6]。SFC使用由超临界CO2和主要的醇类溶剂组成的洗脱液,具有快速高效的优点,被认为是一种节省有机溶剂的绿色技术。对于分析手性SFC方法开发,通常在梯度模式下筛选一组手性色谱柱,以确定合适的分离条件。而糖类CSP因其广泛的选择性和高负载能力而最常用于医药中间体或API的制备分离[7]。

平行筛选和使用小粒径的短色谱柱可以加速方法开发过程[8,9]。根据代表性测试集的统计评估获得的手性固定相的正交性估计,可以减少待测色谱柱的数量[10,11]。理想情况下,可以根据分析物的结构预测成功的分离条件,因此将方法开发减少到一次确认运行。进行有限几次尝试就建立起手性化合物结构和分离条件,迄今为止只取得了有限的成功。例如,借助神经元网络模型,报道说可以正确预测外消旋色氨酸和苯丙氨酸所有四种立体异构体的理想手性分离[12]。另一种方法使用分子建模工具成功预测给定CSP上两种对映异构体的洗脱顺序[13]。然而,这两种应用都是针对给定的固定相/分析物对量身定制的解决方案,因此不能普遍应用于各种分析物的分离。还有人通过对从手性HPLC/SFC分离的化学数据库“ChirBase”中提取的大约130'000个手性分离进行定量结构活性关系(QSAR)方法,朝着真正的预测迈出了一步[14-16]。然而,尽管有丰富的实验数据,但研究发现19个手性固定相中只有4个获得了结论性结果,只能进行中等精度的预测。

使用大型数据集进行预测和模拟仍然存在的挑战,Mattrey等[19]总结了这些挑战。其重要的一点是数据不完整,因为数据集只记录了成功的分离,重要的元数据可能丢失,或者数据不均匀,因为它可能是在不一致的技术和实验条件下生成的。数据通常无法直接挖掘,因为它以不同的供应商格式存储,这需要在分析之前进行格式转换或数据过滤清洗。

在这项研究中,诺华科学家解决了上述问题,并展示了如何基于简单分析策略对每个色谱图的进行分离的创建手性筛选结果的均匀数据集(图1)。通过筛选条件的标准化和使用专有的筛选程序分析色谱图,确保了数据的一致性。自动分析和将结果存储在数据库中,可以在短时间内生成大型数据集,以便进一步评估,并且只需最少的人工干预。该筛选工具用于日常工作,迄今为止已测试了 2500 多种内部研究化合物。

图1

由于日常工作流程中的待分析化合物通常与项目中的少数先导化合物相关,因此它们在结构上过于相似,无法拿来构成通用工作流程的测试集。为了扩展该方法的应用,将筛选范围扩大到包括800多个外消旋体的测试集,以确保最大的结构变化(详见第2.6章)。此外,作者还设计了第二组色谱柱,在第二组色谱柱组上测试了300多种这些化合物,该色谱柱组包含更多的手性固定相多样性。最后,在对该测试集的数据进行进一步分析之前,在报告工具的帮助下进行手动审查所有筛选,评估评分算法的性能并删除任何不清楚或错误的数据。在最后一步中,另一个专有软件工具对数据库进行搜素查询,以生成基本的统计分布数据,并计算本研究中提出的所有不同数据集的全局最佳筛选条件。


实验

2.1. 化学品

该测试的所有测试集分析物均来自诺华的化合物收集。选用的分子都来自“ChEMBL”库。ChEMBL是个具有类药特性的生物活性分子的非专有的公共数据库[20,21],诺华购买收集了其中的一部分化合物。用于日常分离的样品是来自诺华药物化学实验室,是诺华自己专有的化合物。在对所有化合物进行筛选之前,通过开放获取实验室的UPLC-MS测试了所有化合物的特性和纯度。

实验里用到的试剂,包括色谱级异丙醇(IPA)和甲醇(MeOH)的购自霍尼韦尔,25%的氨水购买自VWR International,甲酸(>98.0%)够自Sigma-Aldrich。液态 CO2 30 (>99.9%) 购自CARBAGAS。

2.2. 分析仪器

所有筛选均在沃特世公司的UPC2系统上进行,该系统配备了样品管理器、二元溶剂泵、光电二极管阵列检测器、自动背压调节器、紫外检测器和色谱柱管理器。SFC系统连接到Waters的QDA或SQD-2质谱检测器。

MeOH + 0.1%甲酸的补充溶液由沃特世泵控制模块II控制的Waters 515 HPLC泵或等度溶剂管理器(IMS)加入。管理软件为Waters MasslynxTM 4.1版软件。

2.3. 色谱柱

本研究中使用的所有手性色谱柱的长度均为100 mm,内径为4.6 mm,粒径为5 μm。Chiralpak AD (AD)、Chiralpak AY (AY)、Chiralpak IB-N (IB)、Chiralpak IC (IC)、Chiralpak IE (IE)、Chiralpak IF (IF) 和 Chiralpak IG (IG) 色谱柱购自 Chiral Technologies Europe,Whelk-O1 (WO) 色谱柱购自 RegisTechnologies,Lux Cellulose-2 (C2) 和 Lux Cellulose-4 (C4) 色谱柱购自 Phenomenex Helvetia。

2.4. 分析方法

手性筛选使用两组独立的五根色谱柱进行。首先用IPA筛选所有色谱柱,然后用MeOH筛选,顺序如下:第1组:AD、IG、IC、C2、IB;第 2组:AY、IF、WO、C4、IE。两种溶剂均含有0.025%的NH4OH(0.1%vol的25%NH4OH水溶液)。在所有色谱柱上,两种溶剂均采用相同的梯度方法,从5%溶剂开始,保持0.5分钟,然后在5分钟内升温至55%,然后保持0.5分钟,总运行时间为6分钟。流速为3.0 ml/min,背压设置为1800 psi,柱温为40°C,再用0.5分钟的时间平衡。

样品以约1mg/ml的浓度溶解在MeOH中,通过0.45μm注射器过滤器过滤。进样体积为5μl。

SFC筛选使用氨水作为碱性流动相改性剂,因为我们大多数基于实验室常规的样品都是碱性化合物。此外,由于相应盐的反应性降低,我们还在碱性条件下分离像羧酸这样的酸性化合物。因此,氨水是本研究中唯一考虑的流动相改性剂。

2.5. 用于筛选、报告和分析的软件应用程序

在Microsoft Visual Studio 2017(.NET Framework,C#)中开发了三个专有软件应用程序 - 筛选工具,报告工具和统计评估程序。

筛选工具利用了MasslynxTM(沃特世UPC2控制器软件)的AutolynxTM功能,允许通过文本文件输入控制色谱系统。因此,该工具安装在SFC系统的控制器计算机上。MasslynxTM的内置集成和报告功能用于生成rpt文件,该文件以结构化文本格式包含整合峰的相关色谱信息,不需要在工作流程中进一步处理原始数据。每个分析物的完整筛选过程大约需要 1.5 小时。如图 2 所示,使用筛选工具启动。通过录入或扫描内部申请表的条形码,将以下信息输入到图形用户界面中:用户标识、电子实验室笔记本的实验标识、请求标识符、相关项目代码、样品瓶位置、进样体积(默认设置为 5 μl)、产品质量数、MS 模式(+、- 或两者兼而有之)、筛选模式(完整或定向)。程序检查输入数据的有效性和完整性,并将其添加到筛选队列中。

当分析物的筛选过程开始时,定义了一系列10种不同的方法(五根色谱柱和两种溶剂的组合),并将相应的分离条件作为信息存储在单个文本文件中,然后通过AutolynxTM接口依次传输到MasslynxTM。在每种测试方法之后,OpenlynxTM (Waters)自动处理运行,该运行生成了一个专有的Waters rpt文件,其中包含基于文本的集成峰的色谱信息。然后,筛选工具提取色谱数据,例如保留时间、峰高、峰宽、峰不对称性、总UV峰面积以及是否检测到预期的峰质量(即m/z)。评分算法使用其中的一部分信息来分析分离是否成功。该算法仅基于两个最大UV峰的分离度,并检测出预期的产物质量。对于计算分离度RS > 1.8的峰分离,得分为2(代表“基线分离”),RS≤为1.8,得分为1(代表“部分分离”)。因此,分离度计算公式为 RS = 2 ∗ (t2 - t1) / (tw2 + tw1),而 t 表示保留时间,tw 表示相应运行的 rpt 文件中报告的两个分离峰的底部宽度。对于仅找到一个或未找到具有预期质量数的峰的色谱图,则评分为0(表示“无分离”)。因此,该算法认为洗脱强度不足时仅洗脱两种对映异构体中的一种或不洗脱也为“无分离”。此问题已通过更复杂的算法解决(请参阅补充信息)。评分、色谱数据和其他元数据存储在关系 Oracle 数据库中。当完成对分析物的所有10种方法的测试后,筛选工具创建了一个两页的pdf报告,其中包含紫外-可见光线和积分峰的更多信息(参见报告工具)。如果在图形用户界面中选择了定向模式而不是全模式,则在当前方法的峰分离被评分为基线分离则直接继续下一个排队的分析物后,分析物的筛选立即停止。

开发报告工具的目的是使实验室专家能够在筛选完成后有效地审查自动处理的分离情况。通过键入或扫描请求表中的条形码输入请求标识符后,程序会访问相关的 rpt 文件以生成报告并将其显示在屏幕上(图 3)。

图3

此外,从数据库中检索了在自动筛选期间计算的分数。然后,操作员可以更改色谱图右上角文本框中显示的分数,从而推翻自动处理的评估结果。保存后,在数据库中更新新的分数,并生成新的pdf报告(图4)。为了便于使用,此应用程序安装在每个实验室专家的个人计算机上,可以访问共享网络文件夹上的 rpt 文件。

图4

创建了第三个专有工具,用于对存储在数据库中的色谱数据进行统计评估。它允许通过访问和处理数据库条目进行过滤操作和计算绝对、相对、累积和唯一成功率。该程序计算了 1-10 种色谱方法的所有可能组合的成功率,并存储了每种方法的 10 种最佳组合,以确定全局最佳方法选择和序列。通过这种蛮力优化方法,评估了所有 3'628'800 种可能的组合 (= 10!)。

2.6. ChEMBL 测试集创建

测试集的创建如图 5 所示。本测试只考虑在碳原子上具有一个手性中心的分子。从诺华内部有约83000种此种符合要求的可用化合物。再与ChEMBL v24数据库中的分子相交,从而挑选出了4375种非专有的可公开的化合物[20]。我们根据文献[18]计算了这些化合物的手性描述符,用于区分不同手性化合物。用 SciKitLearn v0.20.0 [22] 将 4000多 个分子聚类到 50 个不同的手性簇中。从每个簇中最多随机选择10个不同的化合物,从而产生一组483个外消旋体的数据集。由于这些描述符主要由手性中心的性质定义,因此重要的是要认识到聚类并不代表整体结构多样性。为了进一步考虑这一点,我们的集合使用化学信息学工具包RDKit(v2018.09)中的MaxMinPicker算法,从剩余的ChEMBL集中添加了500种化合物(此处使用Morgan Fignerprint,半径为3,Tanimoto相似度算法)[23]。

图5

最终测试集由983种化合物组成,其中832种最终被筛选(见补充信息)。图6显示了整个测试集的化学空间(使用UMAP创建:n_neighbors=20,metric=tanimoto_dist,min_dist=0.5),突出显示了不同的多样性维度(手性中心多样性和化学结构多样性)[24]。

图6



结果与讨论

3.1. 背景

在诺华NIBR的实验室中,每年进行大约 1500 次手性筛选和 1000 次主要立体异构体的制备分离,规模为 10 mg - 2 g,其中 50% 低于 200 mg。根据常规分离的经验,标准SFC筛选(色谱柱组1)的色谱柱和溶剂选择在本研究开始前一年多就设置好了。期望通过本研究工作的产出来减少筛选时间和工作量来最大限度地提高标准分离的通量。

3.2. 手性筛选数据集、数据管理和所用评分算法的验证

从常规实验室工作的角度来看,本研究的目标是生成一套定制的软件工具,最大限度地减少设置筛选的工作量,实时评估所得色谱图,并生成完整且标准化的数据集,该数据集完全一致,适用于全面的自动化分析。到目前为止,该工具已经筛选了3500多种化合物混合物,相当于35'000个生成的色谱图/数据库条目。除了常规样品外,还以基本SFC筛选的条件使用了色谱柱组1对800多个具有最大结构变异的外消旋体(详见第2.6章)的测试集进行了我测试,以产生代表更广泛结构范围的色谱结果。另外,使用了色谱柱组2对测试组的300多种随机选择的化合物进行了另一次手性SFC筛选。

为了评估评分算法的性能并从数据库中过滤掉不明确或错误的结果,手动审查测试组的所有色谱图,并使用报告工具对自动设置的分数进行了校正。这一步骤是一项重要措施,以确保的论是公正的,克服了自动筛选工作流程背后的评分算法的潜在局限性。观察到的需要处理的的问题色谱图可分为两类。首先是由于技术问题或化合物既不具有UV响应也不具有MS响应,不纯或不稳定,非外消旋组成或由于互换构象而导致的导致无法解释的色谱图,导致筛选不完整。这些筛选结果被排除在评估之外。其次是色谱图导致错误的分数,但可以手动纠正。该问题主要是由于MS峰的提取错误或缺失(图7)以及保留过强或未洗脱引起的。补充信息中给出了评分算法的难点色谱图的更全面概述和评分算法的统计评价数据表。

图7

手动更改的效果可以被监控,因为通过筛选工具的算法自动评估的分数以及操作员在报告工具中手动否决的结果都存储在数据库中。对这些数据的分析表明,90%的筛选可以在不检查原始数据的情况下进行评估,因此适合自动评估。应用的相对简单的评分算法分别正确评估了色谱柱组 1 和色谱柱组 2 的近 80% 和 67%(详细信息在补充信息中给出)。

通过自动算法错误评分的单张色谱图不一定会影响整体筛选成功率 - 特别是因为错误的评分可以通过操作员在常规实验室过程中通过报告工具进行手动审查来纠正。然而,对于可以在筛选工具中选择的定向筛选模式,必须避免基线分离的错误分配,因为它们会导致筛选的提前停止(参见实验部分)。这说明了应用的、相对简单的评分算法的局限性,在这种算法中,更强大的评分方案将是有益的,并且还会进一步限制使用报告工具进行手动评分审查时的人为错误。

3.3. 替代评分方案

在检查过程中,评分算法最重要的任务是明确识别要评估的峰值。峰质量数信息对于鉴定肯定有帮助,但还不够,因为其检测可能不可靠。真实世界的化合物可能无法电离,MS 灵敏度可能较低或校准偏差,操作人员可能输入了错误的 m/z 值,质量数可能在电离过程中重新排列,或者电离可能对加合物具有倾向性。最后但并非最不重要的一点是,在我们实验室分析的样品中,大约50%不是外消旋异构体,而是不同比例的立体异构体,因此,经常出现4峰分离现象(4种立体异构体或2种立体异构体加1种主要外消旋杂质)经常发生。在筛选工具的原型版本中使用的更复杂的评分算法考虑了所有这些方面,补充信息中对此进行了概述。

3.4. 单个数据集的统计评估

通过评估工具计算分析不同化合物组筛选的关键参数,即色谱柱组1、色谱柱组2和常规样品。补充信息中提供了手动整理前后两组色谱柱单独和组合评估结果的完整概述。

色谱柱组 1 上的筛选,69%的测试组化合物获得了基线分离(图 8 A)。23%的筛选化合物(部分分离)需要进一步的方法优化,因为在筛选条件下,其对映异构体的峰分离是部分分离。对于8%的外消旋体,根本没有实现分离。这些结果表明,在至少一种测试条件下,可以分离高达92%的测试外消旋混合物的对映异构体。虽然部分分离可能需要对方法条件进行一些额外的微调,但考虑到我们的设置仅包含五个短色谱柱和两个溶剂,因此非常高效。因此,高度自动化使实验室专家能够专注于为筛选失败的剩余 8% 的外消旋体找到合适的分离方法。

图8

基线分离的分布(图8 B和C)显示,AD和IG是最成功的色谱柱,能够基线分离化合物的百分比最高,其次是C2、IC和IB。总体成功率最高的色谱柱也显示出最多的单一分离次数,单一分离表示没有其他测试的色谱柱/溶剂组合能实现对映异构体的基线分离。这是有道理的,因为更高的成功率也应该增加单一分离的可能性。两种成功率最高的实验组合的溶剂都是MeOH。然而,使用两种溶剂对于高效的筛选过程都是必不可少的。图8D显示平均而言,每种溶剂都可识别一次基线分离和两次部分分离。这在一定程度上可以不用担心后续优化制备分离的最佳条件选择,例如色谱柱可用性或样品溶解度上的限制。

 对于来自提交给实验室的专有样本的最大数据集,在色谱柱集 1 上进行的所有 2667 次筛选都包含在评估中(参见补充信息)。总体成功率(63%基线分离,25%部分分离,12%未分离化合物)与测试化合物相当。性能略低的原因在于,该组不仅包括典型的杂环芳香族化合物,还包括特殊分子,如肽、偶联物和酶反应产生的小/极性中间体,这些分子在筛选流动相条件下通常不能洗脱。此外,在现实生活中,还会对不纯或不稳定的化合物或没有发色团的化合物进行筛选。有时,对单个异构体进行筛选以确认其手性纯度。与测试集相比,所有这些情况都可能导致观察到的实验室样品的成功率降低。对于常规样品的分离,最成功的色谱柱是AD和IG,其次是IC和C2,两者的性能相同。AD色谱柱在基线和唯一分离方面的表现超过了所有其他色谱柱,这很可能是由于项目的单一性(本项目后面称为项目A)。

实验室样品的结果高度依赖于所提交化合物的性质,这些化合物通常包含来自同一系列的多个相似结构。因此,实验室样品分析的结果会受到这些常见手性核心的偏差影响。我们想知道,是否可以探索项目中结构相关化合物引起的偏差,以通过定制进一步优化筛选过程。为此,筛选的常规样本按项目重新排列并作为子组进行评估。因此,分析的三个项目在基线分离和唯一基线分离的分布上显示出明显的差异(图9)。项目A的色谱柱性能分布非常单边,AD与IPA结合使用,占基线分离率的40%以上。此外,在该项目中超过20%的分离中,AD和IPA是唯一提供基线分离的条件。对于其他两个项目,选择性分布更均匀。尽管如此,AD与一种或两种溶剂的组合仍然是基线分离次数最多的色谱柱。

图9

这些项目在测试色谱柱和溶剂组合的成功率分布上的特定差异促使我们通过定制要筛选的方法顺序来研究进一步的效率优化。在评估软件工具的帮助下,我们确定了以项目 C 为例尽早找到基线分离的最大概率的方法序列(图 10)。比较了属于项目C的所有分析物的静态方法序列和项目优化方法序列之间的累积基线分离成功率。筛选所有 10 种方法后,两种序列的最终基线分离率为 74.5%,基线或部分分离率为 91%(数据未显示),这证实了该方法的完整性。与静态序列相比,静态序列的累积增加相当不一致,优化序列的成功率完全遵循饱和曲线,因为每种新方法的贡献都小于前一种方法。该曲线很好地说明了整个筛选序列由完全或接近最优方法子集组成,这意味着在筛选的每个阶段,找到基线分离的概率始终最大。

图10

当使用优化的方法序列时,本项目69.7%的化合物可以用前五种方法进行基线分离,比前五种方法从静态序列中分离出约20%。当应用定向筛选模式时,即一旦确定基线分离,筛选就会停止,优化的筛选顺序将通过显着减少时间和节省资源来提高筛选效率。当在优化序列上仅测试5种而不是10种方法时,遗漏的分离数量相对较低。例如,在本项目的所有化合物中,仅使用一半的筛选时间和资源,仍然可以观察到93.5%的基线分离和>99%的基线或部分分离。

3.5. 色谱柱集合 1 和色谱柱集合 2 上扩展数据集的统计评估

将第二色谱柱集纳入筛选的,以检查方法的扩展是否可用于改善筛选结果。在两个色谱柱上筛选了284个测试集样品。完整数据集的结果与单独分析的色谱柱集 1 和色谱柱集 2 的结果非常相似(参见补充信息)。在色谱柱组 1 上,发现 64% 的基线分离和 29% 的部分分离,7% 的测试化合物无法分离。色谱柱组2上相同化合物的成功率较低,基线分离率为55%,部分分离率为35%,未分离化合物的成功率为10%。这表明,总体而言,第 1 组中的色谱柱比第 2 组中的色谱柱更成功地分离了我们感兴趣的分析物。

图 11 显示了组合集的评估结果。在所有 20 种条件下,基线分离率增加到 72%,发现 23% 的部分分离,5% 的化合物仍未分离。与单独的色谱柱集相比,合并后的性能更好,因为更多的色谱柱应该会导致更多的化合物被分离出来。然而,与单独的色谱柱组 1 相比,将色谱柱数量和筛选时间增加一倍,仅使基线分离总量增加 8%,代价似乎相当高。独特的基线分离分布显示了有五种方法,这些方法没有任何基线分离,另外 7 种方法仅贡献了一次基线分离,这会令我们质疑筛选更多色谱柱的好处。由于相对成功率略有增加,实际上在色谱柱组 2 的筛选中只发现了少数独特的基线分离,而大多数分离已经使用色谱柱组 1 实现。需要注意的是,组合组的基线分离和部分或基线分离的累积成功率(图 11 E、F)进一步表明,使用色谱柱组 2 的额外 10 种筛选方法不会带来任何实质性的改进。因此,仅使用色谱柱组 1,将分别找到色谱柱集 1 和 2 的基线分离总数的 90% 和 98%。

图11

如上文对项目C的分析物所述,评估软件工具确定了最大限度地提高扩展数据集筛选效率的最佳方法序列。对 20 种方法进行完整的蛮力优化需要计算 2'432'902'008'176'640'000 列组合 (= 20!),这将超出可用的计算能力。因此,对 20 种方法中的 10 种最佳方法进行全面优化,将计算减少到 670'442'572'800 个可能的列组合 (= 20!/10!),这可以在标准个人计算机上在不到 10 秒的时间内计算出来。此外,对所有 20 种方法进行全面优化似乎没有必要,因为最后 10 种方法对总体成功率的贡献很小,无论它们的序列是否优化。目的是确定 10 个色谱柱子集的最佳组合和序列,以挑战目前使用色谱柱集 1 的筛选方案。基线分离率的计算结果如表1所示。计算了 n 方法的 10 种最佳组合以及相应的基线分离率。考虑的色谱柱数越多,它们在 10 个最佳组合中的排名差异就越小。此外,不同的色谱柱组合通常具有完全相同的成功率(相同的基线分离次数)。

要从这些数据构建最佳序列,可以从第一个最佳方法开始,然后找到下一个最佳组合,其中添加了一个新方法。这相当于一个非常简单的优化算法,其中只需计算 190 个组合即可对 20 个方法进行全面优化。此方法选择的方法顺序通过在新添加的列下划线表示。在 7 种方法的组合之前,路径遵循全局最优值(每个 n 方法计算的最佳组合),然后偏离并最终以次优方法组合结束,与全局最优值相比,基线分离率的损失微小为 0.4%。这种方法产生了最佳方法序列:IG-M、C2-M、AD-I、WO-M、AD-M、C4-I、IG-I、IC-I、C4-M、IC-M/IB-M/IF-M。

第二种方法从 10 种方法的全局最优组合开始。然后,一列列地删除,以尽可能接近全局最大值。通过标记以粗体字母删除的列来突出显示此序列路径。此路径以全局最大值开始和结束。然而,大多数中间阶段是次优的,但差异很小,两种方法的组合不超过1.1%。选择导致全局最优的第二种方法来推导本研究中提出的所有最优序列。因此,所有中间阶段总是在 10 种最确定的方法组合中找到。这种方法产生了最佳方法序列:IG-M、AD-I、C4-M、WO-M、AD-M、C4-I、IG-I、IC-M、IB-M、IF-M。

此外,色谱柱/溶剂组合的互补性也可以用表1中的数据来估计。这是指一组给定方法的基线分离之和。例如,两列组合的列中的前四个条目可以解释为 C2-M 与 IG-M 最互补,其次是 AD-I、C4-M 和 C4-I。如前所述,以黄色突出显示的列与前一组列最互补(表1)。

表1

这里介绍的方法可能会导致一个极端的序列,包括所有 10 个不同的色谱柱,以充分利用手性选择子的多样性。在另一个极端,它可能只包括五根色谱柱,每根色谱柱都与两种溶剂结合使用。这种“5柱和2溶剂”的配置最为有趣,因为它代表了筛选工具所针对的配置。因此,打算从两组色谱柱中挑出五根色谱柱,这些色谱柱在使用 MeOH 和 IPA 进行筛选时会导致最多的分离。该配置是通过评估每根色谱柱的 MeOH 和 IPA 的统一数据集来建立的。

根据20种不同方法(见上文)计算出的10种方法的最佳序列需要7根色谱柱(7次与MeOH联合使用,3次与IPA联合使用)才能达到70.1%的总基线分离率(图12 A)。实际上更相关的10种方法的最佳序列仅基于5个色谱柱和两种溶剂,使用AD、C4、IG、WO和IC色谱柱,实现了69.4%的可比基线分离率(图12 B)。这五根最佳色谱柱与目前用于常规样品方法筛选的集合 1 的五根色谱柱不同。结果表明,用 C4 和 WO 色谱柱代替 C2 和 IB 将基线分离率从目前的 64% 提高到 69.4%,并将未分离化合物的比例从 7% 降低到 5%,而不会增加筛选工作量。

图12

这些发现证实了主观印象,即使用“适合所有”条件的第一次初始SFC筛选可以限制为少量的和差异的最大正交柱。对于测试库和常规样品,很少获得具有良好峰形、良好保留但选择性差的色谱图。有问题的化合物要么洗脱得早,要么洗脱得晚,要么根本不洗脱,和/或显示出奇怪的峰形。对于这几个分子,必须在SFC标准筛选框架之外开发定制的分离条件。



结论

这个的自动化筛选过程,包括用于筛选、色谱图审查和筛选数据评估的软件应用程序,已被证明可以加速日常工作并生成无差错和一致的数据集。这个过程不仅加速了我们的实验室日常工作,而且由此产生的数据集能够从统计学上推断出进一步的效率,提高对过程的适应。

在分析物在结构上与常见先导化合物密切相关的项目中,发现一些色谱柱/溶剂组合可以对大多数测试分析物进行基线分离。这种偏差主要可以用于定向模式下的筛选,即一旦确定基线分离就停止筛选。在其中一个测试项目中,一种方法对超过40%的测试分析物进行了基线分离。如果选择这种方法作为筛选的第一种测试方法,整个过程只要原来方法的十分之一的时间,从而节省了大量的时间和资源。

在这项研究中,将一组五根标准柱(最初被认为是最有效的柱)扩展了另一组五根柱子。三分之一的测试组由所有10根色谱柱结合两种溶剂进行筛选,结果表明,通过交换标准五色谱柱组的两根色谱柱,可以在不增加筛选负荷或时间的情况下显着提高筛选效率。与标准色谱柱组相比,优化的五色谱柱组的基线分离率提高了7.8%,未分离化合物的数量减少了28.5%。由于我们将测试化合物的重点放在结构多样性上,因此由优化的色谱柱组(AD、C4、IG、WO、IC)与溶剂MeOH和IPA组成的10种方法不仅有望在我们的实验室中代表最佳效率,而且在任何其他常规分离手性小分子的实验室中也是如此。

本文的目的是通过降低自由度(一小部分方法)来提高方法筛选的效率,从而缩短整体筛选时间。因此,仅使用五根色谱柱和两种溶剂,我们就能够分别分离出高达93%和95%的测试外消旋混合物的对映异构体,并具有至少一种测试条件,适用于标准色谱柱组和优化色谱柱组。这种方法不仅使分析方法筛选更加高效,而且在随后的制备手性分离过程中,五个类似的制备柱足以进行大部分分离。

对于其余5%-7%的外消旋体,在方法筛选过程中完全没有分离,我们发现,对更多色谱柱的测试对确定前五色谱柱尚未找到的合适方法只有很小的影响。探索替代色谱方法,例如基于HPLC的分析,可能比扩展基于SFC的筛选更有效。筛查过程的高度自动化使实验室专家有时间和自由专注于探索分离这些危重病例的替代方法。

这是自动化过程首次创建如此庞大且均匀的数据集,这些数据集直接来自手性筛选,只需最少的人工干预。积分峰的所有相关色谱信息都以文本形式存储在当前38'000个rpt文件中,这些文件与相应分析物的结构明确相关联。在这项研究中,我们证明了这些数据集的有用性,可以通过简单的好-坏-否分离分数进行统计分析和分箱成功。下一步,我们打算利用它们通过考虑对映异构体的结构信息来预测最佳手性分离条件,例如通过分子动力学模拟或借助数学描述符[18]。


阎作伟的 Comments:

诺华科学家定制了三个软件进行SFC的自动化筛选,峰识别,分离度计算,结果统计分析,将数据结果清洗整理存储。通过数据挖掘获得了进一步提高效率的组合以及方法。基于数据的积累,将来可能可以完成更多杰出的工作成果,例如在特定方法下的SFC的保留预测合手性拆分可能性的预测。

ACD Labs的 AutoChrom online 目前可以支持Empower3 , Chemstation 下的SFC研究的筛选自动化,并且可以再附加对部分分离的建模优化功能。对此项功能有兴趣的同仁可以联络我们进行咨询。


ACD/Labs CN

微信号|ACDLabsCN

长按识别二维码关注我们

联系我们:

阎作伟 13816084932  zuowei.yan@acdlabs.com

陈诚 17705179237  martin.chen@acdlabs.com


ACDLabs
核磁结构定性,质谱结构定性,色谱分析方法开发,理化性质预测,药物分子设计。
 最新文章