摘要:开源软件包scikit-learn提供了各种机器学习算法和数据处理工具,包括Pipeline类,它允许用户将自定义数据转换步骤添加到机器学习模型中。作者引入了MolPipeline软件包,它通过包装标准RDKit功能(例如读取和写入SMILES字符串或从分子对象计算分子描述符)将这一概念扩展到化学信息学。作者的目标是构建一个易于使用的Python软件包,以创建完全自动化的端到端管道,可扩展到大型数据集。特别强调处理错误实例,解决这些错误需要在默认管道中进行手动干预。MolPipeline提供了构建块,使常见的化学信息学任务(例如支架拆分和分子标准化)能够无缝集成到scikit-learn的管道框架中,从而使管道构建能够轻松适应不同的项目需求。
仓库链接:https://github.com/basf/MolPipeline