第22期文献分享会-用于预测食管癌新辅助化疗放疗期间过度肌肉流失的机器学习模型-mlr3公开课
摘要
背景:在食管癌新辅助化疗放疗(NACRT)期间过度的骨骼肌肉流失与生存结果显著相关。然而,测量骨骼肌肉量的传统方法需要使用计算机断层扫描(CT)图像,且计算过程劳动强度大。在本研究中,我们构建了机器学习模型,仅使用体重指数数据和血液实验室测试结果来预测过度的骨骼肌肉流失。
方法:我们随机将232名接受NACRT治疗的男性食管癌患者的数据分为训练集(70%)和测试集(30%),进行1000次迭代。每个训练集都应用了朴素随机过采样方法以调整类别不平衡,并使用了七种不同的机器学习算法来预测过度的骨骼肌肉流失。我们使用了五个输入变量,即50天内体重指数、白蛋白、预后营养指数、中性粒细胞与淋巴细胞比例、血小板与淋巴细胞比例的相对变化百分比。根据我们之前使用最大χ²方法的研究结果,确定50天内骨骼肌指数下降10.0%为过度肌肉流失的截断值。
结果:五个输入变量在过度与非过度肌肉流失组之间显著不同(所有P < 0.001)。两组之间的临床病理变量无显著差异。逻辑回归与支持向量分类器的集成模型在所有模型中显示出最高的曲线下面积值(AUC = 0.808,95%置信区间:0.708-0.894)。该集成模型的敏感性为73.7%(95%置信区间:52.6%-89.5%),特异性为74.5%(95%置信区间:62.7%-86.3%)。
结论:使用逻辑回归与支持向量分类器的集成机器学习模型最有效地预测了NACRT后食管癌患者的过度肌肉流失。该模型可以轻松筛选需要积极干预或及时护理的过度肌肉流失患者。
关键词:机器学习;营养;食管癌;骨骼肌肉流失。
时间与平台
有希望和我们团队直接语音交流的老师可以进腾讯会议沟通,因为腾讯会议人数限制,超员后无法进入。如果无法进入,可以通过视频号观看同步的直播。
本次文献分享会为以下课程的公开课-基于MLR3的机器学习与模型可解释培训班
mlr3 是一个面向对象的、可扩展的机器学习框架,专注于回归、分类、生存分析和其他机器学习任务。它是 mlr3 的继任者,提供了高效的机器学习模型构建和比较。
mlr3 的一些关键特性包括:
面向对象设计:使用R6实现简洁的面向对象设计。 数据操作优化:使用data.table进行更快、更方便的数据操作。 统一容器和结果:以data.table格式返回结果,简化API。 防御式编程和类型安全:通过checkmate检查用户输入,避免使用base R中可能丢失信息的机制。 减少依赖包:mlr3的依赖包大大减少,方便维护。 支持大量算法:mlr3verse体系目前包括138种算法,包括医学中常用的二分类及回归任务,无监督聚类任务及生存分析任务。(https://mlr3extralearners.mlr-org.com/articles/learners/list_learners.html) mlr3图流系统: mlr3的图流系统将机器学习的整个流程视为一个图(或者流),其中每个节点代表一个操作,例如特征工程步骤、学习器、复制、分支、合并等。数据沿着这些节点流动,从而形成一个完整的机器学习流程。
开课目的
相对于学习单独算法的R包,应用框架可以让使用者具有触类旁通的能力,快速掌握多种算法的用法,方便基准测试与模型选择。
基于体系的学习,有助于进行下游问题的扩展,比如mlr3体系在模型可解释性方案可以后续与DLAEX体系无缝衔接。
目前大部分课程均是短期培训。另外,一篇机器学习文章,还需要很多其他基础统计与图表的绘制,目前没有能够整体解决此问题的一揽子课程。本它不仅为机器学习提供了坚实的基础,也为模型解释性的研究提供了桥梁,使得学员能够在后续的学习中与DALEX等先进的模型解释性工具无缝对接。
授课老师
1 灵活胖子
双一流学校肿瘤学博士毕业,目前就职于国内五大肿瘤中心之一。科研方向为真实世界研究,生物信息学分析及人工智能研究。目前以第一或共同第一作者身份发表SCI论文10余篇,累计IF50+。目前与国内多个院校及医院有科研合作。联合翻译小组同学,在国内第一次将mlr3book全文翻译为中文并在公众号发表。
2 Rio
医学博士,临床医生。发表中英文文章 10 余篇。R 与 python 爱好者。
课程目录及安排
第一部分:R语言基础基tidyverse体系
1.学习R语言的必要性及准备工作(环境构建及包安装) 2.整洁数据的一般要求及数据整理(tidydata) 3.R语言基础(1)-一维变量 4.R语言基础(2)-二维变量及高维变量 5.函数的一般用法介绍及出现报错得解决方案 6.tidyverse体系初探
第二部分:传统临床基础统计图表制作
1.组间基线表格快速制作及统计学考量 2.单因素分析批量实现及统计学考虑 3.连续变量截断值选择的方法总结(包括生存资料) 4.有向无环图的应用及快速实现 5.多因素分析批量实现及调整协变量的敏感性分析 6.关键因素鉴定得一些方法(P值法,机器学习方法,效应值改变法等) 7.生存资料的整理及常规生存分析方法(KM,COX,生存曲线及累计风险曲线绘制)
第三部分:mlr3 基础总览
mlr3可以帮助我们什么?
R 语言中的机器学习
mlr3 包和DALEX包简介
DALEX包的概况及模型非依赖性可解释方案
安装和加载mlr3与DALEX, DALEXtra包
mlr3 的基础知识 -sugar 函数
mlr3 的基础知识-图(graph)
遇到报错的解决原则
第四部分:mlr3整体流程初探及任务与学习器详解
任务(Task)-分类任务及回归任务:内部测试任务,利用外部数据组件任务,任务的属性和方法
学习器(learners)-学习器的分类属性及方法
评估(evaluation)初步介绍
第五部分:评估、重采样及基准测试
1.重采样的数种策略:留一法;交叉验证法;Bootstrap 自助抽样与子采样交叉验证法 2.重采样对象的属性和用法 3.基准测试 4.评估详解-常用属性及方法 5.嵌套重采样
第六部分:超参数调参
超参数调参在机器学习中的重要性
模型调优:学习器及搜索空间;终止器;利用 ti() 函数实例化调优对象;黑盒优化问题及其算法
调优的糖函数 - tune(), auto_tuner()
搜索空间的扩展
data.table包的简单应用
第七部分:特征选择
特征选择概述
过滤法:计算过滤器的得分,特征重要性,过滤后的特征选择
嵌入法embedd,嵌入法后的特征选择
封装法:简单前向选择,FSelectInstance 类介绍,不同的特征选择算法,特征选择纳入多种性能指标的优化,AutoSelector 自动选择特征(让特征选择也可以结合重采样)
第八部分:顺序pipeline
1.图流体系介绍 2.顺序图流方法的介绍 3.图学习器的组建和使用 4.对图学习器进行超参数调参
第九部分:非顺序pipeline
1.非顺序图流方法介绍 2.bagging法组建新的学习器 3.stacking法组建新学习器 4.对非顺序图流体系进行调优("分支"及"代理") 5.利用 filter 图流来进行特征选择
第十部分:数据预处理
1.数据清洗 2.构建虚拟变量 3.缺失值处理 4.利用pl("robustify")维持架构的稳定可用 5.特征变换
第十一部分:模型可解释性
1.非模型依赖的可解释性DALEX体系介绍 2.shapley值原理介绍及应用与可视化 3.LIME原理介绍及应用与可视化 4.基于评价指标的变量重要性方法学介绍 5.其他方法学初步介绍
第十二部分:基于mlr3的二分类模型构建与验证的整体流程
1.二分类预测模型整体流程介绍 2.二分类预测的构建 3.二分类预测模型的外部验证 4.二分类预测模型的DCA曲线、校准曲线及概率校准
第十三部分:基于mlr3的生存模型的构建与验证的整体流程
1.生存类预测模型整体流程介绍 2.生存类预测的构建 3.生存类预测模型的外部验证 4.生存类预测模型的DCA曲线、校准曲线
第十四部分:基于mlr3的无监督聚类体系的建立与评价
1.无监督聚类预测模型整体流程介绍 2.无监督聚类模型的构建 3.无监督聚类模型的内部验证-临床与基础相关性 4.无监督聚类模型的外部验证-最优模型法