MolPipeline:一个使用Scikit-learn中的RDKit处理分子的Python包

学术   2024-10-22 15:44   中国台湾  

摘要:开源软件包scikit-learn提供了各种机器学习算法和数据处理工具,包括Pipeline类,它允许用户将自定义数据转换步骤添加到机器学习模型中。作者引入了MolPipeline软件包,它通过包装标准RDKit功能(例如读取和写入SMILES字符串或从分子对象计算分子描述符)将这一概念扩展到化学信息学。作者的目标是构建一个易于使用的Python软件包,以创建完全自动化的端到端管道,可扩展到大型数据集。特别强调处理错误实例,解决这些错误需要在默认管道中进行手动干预。MolPipeline提供了构建块,使常见的化学信息学任务(例如支架拆分和分子标准化)能够无缝集成到scikit-learn的管道框架中,从而使管道构建能够轻松适应不同的项目需求。

仓库链接:https://github.com/basf/MolPipeline

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章