PyCaret 3.0
PyCaret是Python中的开源、低代码机器学习库,可自动化机器学习工作流程,是一种端到端的机器学习和模型管理工具,可指数级地加快实验周期,使您更有效率。
与其他开源机器学习库相比,PyCaret是一个替代的低代码库,可以用来用几行代码替换数百行代码。这使得实验呈指数级快速和高效。PyCaret本质上是一个Python包装器,围绕着几个机器学习库和框架,如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optua、Hyperopt、Ray等等。
PyCaret的设计和简单性受到公民数据科学家这一新兴角色的启发,公民数据科学家是Gartner首次使用的术语。公民数据科学家是能够执行简单和适度复杂的分析任务的高级用户,这些任务以前需要更多的技术专长。
测试环境:colab
本次教程地址:https://pycaret.gitbook.io/docs
API参考网址:https://pycaret.readthedocs.io/en/latest/
特点
PyCaret是Python中的一个开源、低代码机器学习库,旨在将假设减少到ML实验中的数据探索周期时间。它使数据科学家能够快速高效地执行端到端实验。与其他开源机器学习库相比,PyCaret是一个替代的低代码库,只需几行代码即可用于执行复杂的机器学习任务。PyCaret简单易用。
面向公民数据科学家的PyCaret
PyCaret的设计和简单性受到公民数据科学家这一新兴角色的启发,公民数据科学家是高德纳首次使用的术语。公民数据科学家是“超级用户”,他们可以执行简单和中等复杂的分析任务,这些任务以前需要更多的专业知识。经验丰富的数据科学家通常很难找到,雇佣成本也很高,但公民数据科学家可以成为缩小这一差距和应对商业环境中数据科学挑战的有效方式。
PyCaret部署功能
PyCaret是Python中的部署就绪库,这意味着在ML实验中执行的所有步骤都可以使用可重现并保证生产的管道进行再现。管道可以保存为可跨环境传输的二进制文件格式。
PyCaret与BI无缝集成
PyCaret及其机器学习功能与支持Python的环境无缝集成,例如Microsoft Power BI、Tableau、Alteryx和KNIME等等。这为这些BI平台的用户提供了强大的功能,他们现在可以将PyCaret集成到他们现有的工作流程中,并轻松添加一层机器学习。
PyCaret非常适合:
希望提高生产力的经验丰富的数据科学家。
喜欢低代码机器学习解决方案的公民数据科学家。
想要构建快速原型的数据科学专业人士。
数据科学和机器学习的学生和爱好者。
安装
在Python中安装PyCaret的分步指南
选项1:通过PyPi安装
PyCaret在64位系统上进行了测试和支持:
Python 3.8、3.9、3.10和3.11
Ubuntu 16.04或更高版本
Windows 7或更高版本
您可以使用Python的pip包管理器安装PyCaret:
pip install pycaret
PyCaret的默认安装不会自动安装所有可选依赖项。根据用例,您可能对一个或多个附加功能感兴趣:
# install analysis extras
pip install pycaret[analysis]
# models extras
pip install pycaret[models]
# install tuner extras
pip install pycaret[tuner]
# install mlops extras
pip install pycaret[mlops]
# install parallel extras
pip install pycaret[parallel]
# install test extras
pip install pycaret[test]
##
# install multiple extras together
pip install pycaret[analysis,models]
查看所有可选依赖项。如果您想安装包括所有可选依赖项在内的所有内容:
所有依赖地址:https://github.com/pycaret/pycaret/blob/master/requirements-optional.txt
# install full version
pip install pycaret[full]
本次测试安装的为完全版本
选项2:githubu
直接从源代码安装库的开发版本。API可能不稳定。不建议用于生产用途。
pip install git+https://github.com/pycaret/pycaret.git@master --upgrade
选项3:Docker
Docker使用容器创建虚拟环境,使PyCaret安装与系统的其余部分分开。PyCaret docker预装了Jupyter笔记本。它可以与其主机共享资源(访问目录、使用GPU、连接到Internet等)。PyCaret Docker映像始终针对最新的主要版本进行测试。
# default version
docker run -p 8888:8888 pycaret/slim
# full version
docker run -p 8888:8888 pycaret/full
要了解更多信息,请查看pyCaret/Slim或pyCaret/ful的Docker页面。
环境
为了避免与其他软件包的潜在冲突,强烈建议使用虚拟环境,例如python3虚拟环境(请参阅python3虚拟环境留档)或conda环境。使用隔离环境可以独立于任何先前安装的Python包安装特定版本的pyCaret及其依赖项。
# create a conda environment
conda create --name yourenvname python=3.8
# activate conda environment
conda activate yourenvname
# install pycaret
pip install pycaret
# create notebook kernel
python -m ipykernel install --user --name yourenvname --display-name "display-name"
GPU训练
要在GPU上训练模型,只需在设置函数中传递use_gpu=True。API的使用没有变化;但是,在某些情况下,必须安装额外的库。以下模型可以在GPU上训练:
极端梯度提升 Extreme Gradient Boosting Catboost 光梯度提升机需要GPU特定安装 Light Gradient Boosting Machine requires GPU specific installation 逻辑回归,岭分类器,随机森林,K邻居分类器,K邻居回归器,支持向量机,线性回归,岭回归,套索回归需要cuML>=0.15
PyCaret英特尔sklearnet支持
您可以将Intel优化应用于机器学习算法并加快工作流程。要使用Intel优化训练模型,请使用sklearnet引擎。API的使用没有变化,但是需要安装Intel sklearnet:
pip install scikit-learn-intelex
高分文章新方法-基于R语言的动态预测模型课程第三期
开课目的及前言
预测模型类文章目前总结起来发展经历了以下三个阶段:
基于传统流行病学的列线图模型(本质都是cox回归及glm回归),简单的统计学分析模型,是模型依赖的方法,临床上实际情况很难满足其前提假设,实际效果不好。
基于机器学习/深度学习的预测模型的构建(在数据上提高了维度,在算法上引入了机器学习),虽然算法上引入了机器学习模型,处理数据更加灵活,模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测,与临床实际不符。
基于纵向数据的动态预测模型(基于纵向多次随访数据,模型应用联合模型等动态预测模型方法),应用患者的多次随访数据对最终的生存结果进行预测,从数据和方法上都更类似于临床实际。
考虑到动态预测模型有以下特点,因此必然是后续高分文章的必备方法:
数据上必须有同一个患者的多次随访数据,相对于既往横断面一次基线数据,数据的收集难度更大,而且动态预测模型需拟合纵向的线性混合模型,因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。
应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法,并且还需要熟悉纵向数据分析的广义线性混合模型,再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据,另外对于联合模型,模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。
授课老师
1 灵活胖子
双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。
2 Rio
医学博士,临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。