首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
医学预测模型方法这么多,我该选择哪一个?
学术
2024-11-05 19:02
北京
内容来自:“小白学统计”微信公众号,感谢作者授权
医学预测模型可用的方法非常多,可谓眼花缭乱,随口就能说得上来的都有十几种,能用的至少几十种。
那么医学研究中的预测模型开发常用的方法到底有哪些,如何选择?
本文结合自己的经验说一下。
不当之处,请批评。
我个人认为,可以将医学预测模型方法分为三大类:
(1)
回归模型
:这里既可以是传统的回归模型,如logistic回归、线性回归、Poisson回归;也可以是考虑收缩技术(
或者叫做惩罚方法)的模型,如Lasso回归、弹性网络等。
(2)
非参数模型
:
如光滑样条、广义可加模型等。
(3)
机器学习和深度学习技术
:
如神经网络、分类树、支持向量机、随机森林、卷积神经网络等。
这种分类当然仁者见仁。
比如,机器学习和深度学习能不能归到一类,每个人有自己的不同观点,因为应用场景不大一样。
深度学习主要用于一些文本、图像等非数字的数据。
当然,无论如何,大家不用太关心这个分类。因为不会有人非得问你,你这个方法属于哪一类?大家需要更关心的是:
我该选择哪种方法
。
很多临床医生以及很多公卫的学生现在都喜欢用机器学习方法,觉得听起来高大上。
这种心理无非就是觉得:
我用个大家都知道的回归分析,太土了,显不出我的水平。
我用个新颖的机器学习方法,大家觉得我水平高。
让我们仔细分析一下:首先,如果你是写文章或申课题,评审的都是专业的统计学家,专业的统计学家绝对不会因为你用神经网络而不用logistic回归,就觉得你水平更高。
在专业统计学家眼中,
不会觉得一种方法比另一种方法更好,每种方法都有自己的优缺点
。当然,也许有时候恰好评审专家中没有统计学家,那另当别论。
其次,如果你是毕业论文,给你评审的专家什么方法没见过?强行为了用新方法而用,只会让评审专家觉得你太幼稚。
所以,
无论在什么情形,没必要去追求所谓的高大上方法
。
那实际中如何选择呢?
先用一张概念图示意一下常见几种方法的解释度和灵活度(摘自James G,2021)。
没有任何一种方法是完美的。
回归方法解释度很好,但灵活度不足;机器学习方法很灵活,但解释能力有限
。
所以,其实答案取决于你自己。
你想侧重解释度还是侧重模型的拟合效果?如果你的目的只是为了建一个预测效果很好的模型,至于解释能力如何并不关心,这种情况下,可以考虑用
机器学习
(当然,我说是可以考虑,并不意味着一定可以用,实际能不能用还取决于其它条件,比如样本量够不够);如果你想开发一个在临床中应用的,让临床大夫也能很好理解的预测模型,那解释度就很重要,这时候建议首选考虑
回归模型
。
事实上,机器学习为什么更加灵活,很大一部分原因是
它比回归模型可以更好地处理非线性
。回归模型(包括lasso)无法自动处理非线性问题,而在医学数据中,非线性并不少见。如果存在非线性而你又直接用回归模型,必然效果不好。但是这里还有一个契机是:
如果你有一定的分析经验,依然可以通过各种方法在回归模型中解决非线性问题
。
比如下面这个例子,这是同一个连续变量的预测效果。
左图把变量直接纳入logistic回归,显示AUC只有0.6,而两层的神经网络则AUC达到了0.86。
很多人就会说,果然神经网络优于logistic回归!
事实上,不少论文就是这么做的,也是这么得出结论的。
然而再看右图,我仍然使用logistic回归,但是把该变量做了一个变换,同样还是这个变量,AUC也达到了0.86。
现在还能说logistic回归不如神经网络吗?
所以建议大家:
如果你用的就是常规的临床数值数据(而不是文本或图像等),如果预测变量与结局之间没有复杂的非线性关系,采用
回归模型
即可;
如果发现非线性关系,但是可以变换成线性的,可以考虑简单的
非线性回归模型
;
这类方法的解释度最高。
如果存在较为复杂非线性关系,可以考虑
样条回归、光滑样条等技术
,这类方法的解释度略优于神经网络。
但其实这类方法也不会把关系处理的太复杂,大多数还是相对简单的非线性关系。
因为如果非要搞得很复杂,解释性也就下降了,就不如直接用机器学习了。
只有那些真正关系很复杂或搞不清到底什么关系,可以考虑用机器学习方法
。
机器学习并不是万能的,至少解释度就差了好多
。尽管目前也有一些技术适当提高了解释度(如SHAP),但是相比之下,毕竟还是不如回归模型。
如果你是一名临床医生,我相信你开发一个预测模型的目的是为了应用,这种情况下,用回归模型会更合理,除非数据实在太复杂。
但根据我十多年超过千次的数据分析经验,通常数据没有那么复杂。
如果你是一名公共卫生、医学统计专业的学生,可能是为了写一个预测模型开发的毕业论文,所以你想用一些新的方法。但我仍然建议
首选回归模型
。原因在于:如果你用机器学习的方法,你或许在分析过程中学到了如何用R、python等实现,但你也许只学到了这些。除非你非常用心钻研其背后原理(据我了解这种人不多),否则其实你仍然只是学到了皮毛。还不如采用回归模型,具体学习分析过程中遇到的各种问题,如何解决的方法,也许会加深你对模型的理解。
永远不要觉得哪种方法太简单了你不屑于用,没有一种方法是真正简单的,取决于你如何理解“学会”这两个字
。能用软件出个结果就算是“学会”了这种方法了吗?
当然,虽然我的建议很明确,但仍需要根据具体数据、具体场景、以及你自己的研究目的来定。只是希望大家在医学预测模型开发应用这一领域,不要走偏。如果一个医学预测模型最终目的不是为了临床应用而生,那你开发的目的到底是什么?这个问题虽然简单,但是
希望大家在模型开发前,都扪心自问一下,我们做这个预测模型是为了什么?是不是必须要做?
点击左下角"
阅读原文
",学习70多篇SPSS
教程,30多篇R教程,以及更多科研教程!
http://mp.weixin.qq.com/s?__biz=MzI2OTQyMzc5MA==&mid=2247521708&idx=1&sn=b7a6d6e365b4fa85781646201a4b6e63
医咖会
详细的医学统计教程;实例讲解临床研究设计;咨询临床研究方法学大咖;研究进展、临床指南、专家观点和循证医学案例...
最新文章
一预印本文章因共同作者“内讧”而撤稿,合著者称未征得其同意就发表
《eLife》将失去明年的影响因子,或被ESCI部分收录!
【直播预告】回顾性研究设计在临床科研中的应用
扭曲短语、不相关内容…这篇包含大量造假信号的论文引发“众怒”
一研究者被《Science》调查揭露数十篇论文造假,甚至鼓励实验室人员篡改数据
IF=35.5!每天5分钟改久坐为跑步,就可能降低血压
AI可以生成看似真实的论文图像,如何识别造假图片?
ChatGPT能给出有价值的同行评审意见吗?
如果你还没发SCI,那我真心建议你看看...
医学预测模型方法这么多,我该选择哪一个?
影响因子2.3,接受病例报告,欢迎投稿!
【视频】UK Biobank包含哪些数据?
JAMA子刊发布中国癌症30年发病率趋势,甲状腺癌发病率增长最大!
【直播预告】UK BioBank介绍及应用研究
根据科研诚信分析工具,这些期刊拥有最多的“可疑”论文!
《eLife》被on hold,警惕Clarivate的对学术公平的破坏
Web of Science暂停收录《eLife》(中科院1区),期刊硬刚回应“从未想要”影响因子
2024 ESC《血压升高和高血压管理指南》的10大要点
因太多的异常引用,期刊撤回一大学校长相关的75篇论文
这几种新型肿瘤试验设计,你都知道吗?
最新2024 AHA/ASA指南:卒中的一级预防
【公益讲座】外科临床研究与顶刊投稿经验分享(内附威科医学期刊APC折扣码)
JAMA:一图展示AI在临床中的10种应用场景
如何使用ChatGPT辅助快速列出写作提纲
美国一大学校长20年前发表的博士论文被指控剽窃:50多处未注明参考来源
收稿范围广,近两年发文量增长明显!JCR 2区期刊《Digital Health》诚邀中国作者投稿
想要开展一项回顾性研究,有哪些注意事项?
想利用AI检索和梳理文献?这几个工具值得一试!
【开课倒计时四天】利用公开数据库发顶刊SCI:老年健康调查“八库”训练营
柳叶刀发布最新综述:甲减的诊断和治疗
UKB最新研究:光睡眠时长达标还不够,睡眠不规律也会增加糖尿病风险(IF=14.8)
一病例报告因使用了患者外院的病历信息,发表后被人指控抄袭
2024“临床-统计交叉融合”学术交流,3天精彩讲座,不要错过!
内科学年鉴:代谢综合征患者限时进食,可以改善血糖!
Web of Science暂停收录《Cureus》和《Heliyon》期刊文章,来看两个期刊近年发文特征
顶尖研究者被质疑132篇论文有问题,目前已被撤职
利用公开数据库发顶刊SCI:老年健康调查“八库”训练营
非劣效性试验的关键统计学考虑
JAMA子刊:做科研的美国医生中,83.6%的人每周只能花不到10%的时间用于研究
真讽刺!号称要提升论文严谨性的论文因为不严谨而被撤稿...
慢阻肺合并心血管疾病领域的10大研究重点:美国胸科学会的研究声明
周末集中运动还是每天运动?只要量够,都与多种疾病风险降低相关!
Nature:130篇论文存在数据问题,均来自同一作者
期刊编辑:盘点论文中常见的统计错误
一项新研究指出:每7篇论文可能就有1篇造假
柳叶刀子刊发表全球卒中数据:卒中为全球第3大死因
UKB数据库分析:每天3杯咖啡,或显著降低心脏代谢疾病风险
2024年美国住院医薪酬调查:大多数住院医认为应该拿更高的薪水
诺奖风向标之拉斯克奖公布:“减肥神药”GLP-1的发现者获奖
NEJM:报告敏感性分析结果的四点建议
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉