ACD/Labs
如何应对制药研发中机器学习和人工智能的挑战
Richard Lee
ACD/Labs核心技术总监
在药物研发中导航机器学习(ML) 和人工智能(AI)的集成涉及克服数据管理、质量和专业知识挑战,以释放它们在药物发现中的全部潜力。
制药公司一直承受着创新并以高效且具有成本效益的方式将新药推向市场的压力。然而,药物发现和开发过程很复杂,存在挑战,可能会显著减慢进展。应对这些挑战的最有前途的途径之一是将机器学习(ML)和人工智能(AI)整合到研发(R&D)中。尽管潜力巨大,但实施这些技术并非没有障碍。
弥合原始数据与 ML/AI 应用程序之间的差距
制药公司在研发中实施机器学习和人工智能时面临的最重大挑战之一是管理现代科学仪器生成的庞大数量和多样性的数据。药物发现涉及来自液相色谱、质谱和核磁共振 (NMR) 波谱等技术的复杂数据集。这些数据必须得到有效的获取、组织和解释,然后才能用于 ML/AI 模型。
数据异构性、组合和质量
这一挑战中的一个关键问题是数据异构性。由不同仪器和实验生成的数据通常采用不同供应商的各种专有格式。将这些不同的数据集集成到 ML/AI 模型可用的连贯格式中需要大量的预处理。这种预处理可能涉及规范化、标准化和将数据转换为通用格式,这不仅耗时,而且如果不小心处理,容易出错。
数据的集成和组合是制药行业面临的重大挑战。孤立的分析数据不足以提供化学实验的完整背景。通常,分析数据的聚合以及全面的实验细节对于呈现对化学研究的完整和连贯的理解是必要的。
此外,数据质量是另一个关键问题。ML 和 AI 模型的好坏取决于用于创建模型的数据。从实验中收集的数据可能包含缺失的元数据或异常值,如果不加以解决,所有这些都可能会扭曲 ML/AI 模型的结果。通过严格的验证、清理和管理流程确保数据质量对于构建可靠的模型至关重要。但是,这项任务通常是资源密集型的,并且需要领域知识和数据科学方面的专业知识。
数据可访问性和集成
一旦数据被标准化和清理,另一个挑战就出现了,即使其可以跨不同系统访问和集成。制药公司通常使用遗留系统和孤立的数据存储库运营,因此难以创建统一的数据环境。集成来自各种来源的结构化数据(例如实验数据)对于训练全面的 ML 模型至关重要。
降低 ML/AI 集成的门槛
即使制药公司拥有结构化数据,下一个挑战也在于开发和实施 ML/AI 模型所需的专业知识。许多组织缺乏创建 ML/AI 模型所需的专业技能。这种技能差距可能是采用先进技术的重大障碍,因为它需要建立专业团队或依赖外部顾问,这两者都可能既昂贵又耗时。
ACD/Labs 和 ML/AI 在制药研发中的应用
制药公司在实施 ML 和 AI 时面临的挑战是巨大的,但并非无法克服。ACD/Labs 提供的技术为 ML/AI 应用程序访问数据奠定了基础。Spectrus 平台允许组织根据化学背景对分析数据进行标准化和组合。这可以通过自动化服务完成,包括数据编组、格式标准化、数据处理和数据组装。Spectrus 平台还可以通过其广泛的 API 与 IT 生态系统中的其他信息系统集成。
此外,ACD/Labs 一直在提供基于 ML 的 NMR 波谱和理化性质预测等预测分析模块。这些模块被认为是化学信息学行业的黄金标准。最近,ACD/Labs 的高通量化学应用程序 Katalyst D2D 已与开源 ML 模块通过贝叶斯优化 (EDBO) 进行实验设计集成,以增强和加速催化剂筛选实验以及参数优化。EDBO 是一种强大的算法,它通过根据先前的实验结果迭代地提出新的条件来优化化学反应。通过将这种 ML 功能直接嵌入到 Katalyst 中,ACD/Labs 降低了制药公司的进入门槛,使他们能够利用 AI 驱动的优化,而无需深厚的机器学习专业知识。
为了支持其他 ML/AI 框架和平台,ACD/Labs 通过与 Atina 等领先的 ML/AI 公司合作,采用了协作方式。Atinary 专注于 AI 驱动的实验设计和优化,他们与 ACD/Labs 的合作为 ACD/Labs 的软件套件带来了额外的 AI 方法。这种合作关系使 ACD/Labs 能够为制药公司提供更全面、更复杂的 ML/AI 解决方案,确保这些技术无缝集成到现有的研发工作流程中。
通过提供开箱即用的解决方案(如 EDBO 增强型 Katalyst)并与 Atina 等 AI 领导者合作,ACD/Labs 使制药公司能够克服 ML/AI 实施的障碍。这种方法不仅加速了药物的发现和开发,而且推动了整个研发过程的创新和效率。