pycaret学习笔记(1)-整体介绍及安装

文摘   2024-10-25 00:02   北京  

PyCaret 3.0

PyCaret是Python中的开源、低代码机器学习库,可自动化机器学习工作流程,是一种端到端的机器学习和模型管理工具,可指数级地加快实验周期,使您更有效率。

与其他开源机器学习库相比,PyCaret是一个替代的低代码库,可以用来用几行代码替换数百行代码。这使得实验呈指数级快速和高效。PyCaret本质上是一个Python包装器,围绕着几个机器学习库和框架,如scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optua、Hyperopt、Ray等等。

PyCaret的设计和简单性受到公民数据科学家这一新兴角色的启发,公民数据科学家是Gartner首次使用的术语。公民数据科学家是能够执行简单和适度复杂的分析任务的高级用户,这些任务以前需要更多的技术专长。

测试环境:colab

colab

本次教程地址:https://pycaret.gitbook.io/docs

API参考网址:https://pycaret.readthedocs.io/en/latest/

特点

PyCaret是Python中的一个开源、低代码机器学习库,旨在将假设减少到ML实验中的数据探索周期时间。它使数据科学家能够快速高效地执行端到端实验。与其他开源机器学习库相比,PyCaret是一个替代的低代码库,只需几行代码即可用于执行复杂的机器学习任务。PyCaret简单易用。

面向公民数据科学家的PyCaret

PyCaret的设计和简单性受到公民数据科学家这一新兴角色的启发,公民数据科学家是高德纳首次使用的术语。公民数据科学家是“超级用户”,他们可以执行简单和中等复杂的分析任务,这些任务以前需要更多的专业知识。经验丰富的数据科学家通常很难找到,雇佣成本也很高,但公民数据科学家可以成为缩小这一差距和应对商业环境中数据科学挑战的有效方式。

PyCaret部署功能

PyCaret是Python中的部署就绪库,这意味着在ML实验中执行的所有步骤都可以使用可重现并保证生产的管道进行再现。管道可以保存为可跨环境传输的二进制文件格式。

PyCaret与BI无缝集成

PyCaret及其机器学习功能与支持Python的环境无缝集成,例如Microsoft Power BI、Tableau、Alteryx和KNIME等等。这为这些BI平台的用户提供了强大的功能,他们现在可以将PyCaret集成到他们现有的工作流程中,并轻松添加一层机器学习。

PyCaret非常适合:

  • 希望提高生产力的经验丰富的数据科学家。

  • 喜欢低代码机器学习解决方案的公民数据科学家。

  • 想要构建快速原型的数据科学专业人士。

  • 数据科学和机器学习的学生和爱好者。

感谢作者们的无私奉献

安装

在Python中安装PyCaret的分步指南

选项1:通过PyPi安装

  • PyCaret在64位系统上进行了测试和支持:

  • Python 3.8、3.9、3.10和3.11

  • Ubuntu 16.04或更高版本

  • Windows 7或更高版本

您可以使用Python的pip包管理器安装PyCaret:

pip install pycaret

PyCaret的默认安装不会自动安装所有可选依赖项。根据用例,您可能对一个或多个附加功能感兴趣:

# install analysis extras
pip install pycaret[analysis]

# models extras
pip install pycaret[models]

# install tuner extras
pip install pycaret[tuner]

# install mlops extras
pip install pycaret[mlops]

# install parallel extras
pip install pycaret[parallel]

# install test extras
pip install pycaret[test]

## 

# install multiple extras together
pip install pycaret[analysis,models]

查看所有可选依赖项。如果您想安装包括所有可选依赖项在内的所有内容:

所有依赖地址:https://github.com/pycaret/pycaret/blob/master/requirements-optional.txt

依赖文件
# install full version
pip install pycaret[full]

本次测试安装的为完全版本

选项2:githubu

直接从源代码安装库的开发版本。API可能不稳定。不建议用于生产用途。

pip install git+https://github.com/pycaret/pycaret.git@master --upgrade

选项3:Docker

Docker使用容器创建虚拟环境,使PyCaret安装与系统的其余部分分开。PyCaret docker预装了Jupyter笔记本。它可以与其主机共享资源(访问目录、使用GPU、连接到Internet等)。PyCaret Docker映像始终针对最新的主要版本进行测试。

# default version
docker run -p 8888:8888 pycaret/slim

# full version
docker run -p 8888:8888 pycaret/full

要了解更多信息,请查看pyCaret/Slim或pyCaret/ful的Docker页面。

环境

为了避免与其他软件包的潜在冲突,强烈建议使用虚拟环境,例如python3虚拟环境(请参阅python3虚拟环境留档)或conda环境。使用隔离环境可以独立于任何先前安装的Python包安装特定版本的pyCaret及其依赖项。

# create a conda environment
conda create --name yourenvname python=3.8

# activate conda environment
conda activate yourenvname

# install pycaret
pip install pycaret

# create notebook kernel
python -m ipykernel install --user --name yourenvname --display-name "display-name"

GPU训练

要在GPU上训练模型,只需在设置函数中传递use_gpu=True。API的使用没有变化;但是,在某些情况下,必须安装额外的库。以下模型可以在GPU上训练:

  • 极端梯度提升 Extreme Gradient Boosting
  • Catboost
  • 光梯度提升机需要GPU特定安装 Light Gradient Boosting Machine requires GPU specific installation
  • 逻辑回归,岭分类器,随机森林,K邻居分类器,K邻居回归器,支持向量机,线性回归,岭回归,套索回归需要cuML>=0.15

PyCaret英特尔sklearnet支持

您可以将Intel优化应用于机器学习算法并加快工作流程。要使用Intel优化训练模型,请使用sklearnet引擎。API的使用没有变化,但是需要安装Intel sklearnet:

pip install scikit-learn-intelex

高分文章新方法-基于R语言的动态预测模型课程第三期

开课目的及前言

预测模型类文章目前总结起来发展经历了以下三个阶段:

  1. 基于传统流行病学的列线图模型(本质都是cox回归及glm回归),简单的统计学分析模型,是模型依赖的方法,临床上实际情况很难满足其前提假设,实际效果不好。

  2. 基于机器学习/深度学习的预测模型的构建(在数据上提高了维度,在算法上引入了机器学习),虽然算法上引入了机器学习模型,处理数据更加灵活,模型的假设也更少。但是在使用的数据上还是患者的一次基线数据进行预测,与临床实际不符。

  3. 基于纵向数据的动态预测模型(基于纵向多次随访数据,模型应用联合模型等动态预测模型方法),应用患者的多次随访数据对最终的生存结果进行预测,从数据和方法上都更类似于临床实际。

考虑到动态预测模型有以下特点,因此必然是后续高分文章的必备方法:

  1. 数据上必须有同一个患者的多次随访数据,相对于既往横断面一次基线数据,数据的收集难度更大,而且动态预测模型需拟合纵向的线性混合模型,因此需要的数据量较大。这就提示我们如果能收集到如上数据更加容易发高分文章。

  2. 应用方法学动态预测模型需首先掌握普通生存分析及普通预测模型的方法,并且还需要熟悉纵向数据分析的广义线性混合模型,再次基础上还需要掌握tidyverse语法基础来将自己的数据转换为满足函数要求的纵向数据,另外对于联合模型,模型的结合形式及变量选择也均需要从临床背景及统计学方法考虑。

文章示例-动态预测模型预测筛查肠癌患者
文章示例-动态预测模型预测前列腺癌预后
文章示例-动态预测用于创伤外科
文章示例-动态预测对比传统模型在糖尿病患者中的应用
顶刊文章示例-动态预测模型用于肾移植后再次肾功能不全诊断
杂志情况

授课老师

1 灵活胖子

双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将jmbayes2及dynamicLM全文翻译为中文并在公众号发表。

2 Rio

医学博士,临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。

课程目录及安排

第一部分:R语言基础部分

第二部分:传统临床基础统计图表制作

第三部分:常规生存分析部分

第四部分:高级生存分析部分

第五部分:动态预测模型部分

授课形式及时间

授课形式:远程在线实时直播授课。

授课时间:2024年12月开课,总课时不少于30小时,每周利用休息时间进行4-6小时的授课,预计4-6周完成所有授课内容。

答疑支持:建立课程专属微信群,1年内课程内容免费答疑。

视频回看:3年内免费无限次回看。

课程售价及售后保证

课程售价:总价3000元,报名可先交300元预定,开课后2周内交齐即可

对公转账等手续务必提前联系助教

承办公司:天企助力(天津)生产力促进有限公司

奖励政策:学员应用所学内容发表IF 10+文章可退还学费(具体要求及流程需要咨询助教)

报名咨询

可联系我的助教进行咨询

我的助教微信

助教联系电话:18502623993


灵活胖子的科研进步之路
医学博士,R语言及Python爱好者,科研方向为真实世界研究,生信分析与人工智能研究。
 最新文章