欢迎来看生信提分笔记!跟着前人的步伐开始了解、学习,少走弯路就是更快一步。2024年影响因子普遍下降、几本生信友好期刊要么On Hold、要么甚至被剔除出SCIE索引。找到新晋的友好期刊,并且符合升职升学对影响因子的要求;或者找对生信发文方法,努力多发至少1-2分,是各位生信小白、初学者目前主要考虑的问题。
生信提分笔记就是来帮助大家
找对方法,弯道超车!
说到找对方法,咱们之前介绍的SHAP解释确实是一个挺香的方向——清晰解释模型特征贡献,临床医患都能看懂!可靠性拉满,一定程度上代替了实验验证!又省一笔经费!
听起来这么香!确实,生信发文不把握住风口,就只能用经费和更多的工作量来凑了。我想现在上车,不过当真没隐患么?
SHAP解释所需的代码知识体系,和生信一般要学习的不太一样。你可以寻求科研合作,不过这里还真有一个坑,要小心不要踩到了。
噫吁嚱,这可如何是好?请雪球老师指点迷津......
我们已经知道了SHAP是用来解释模型的,那这个“模型”你认为是用训练集还是测试集的数据,还是两者都可以呢?
不太清楚有什么区别......
首先,从工作流程来说,SHAP发生在模型解释的阶段,只有在模型表现出足够的性能时才能执行。
性能不够时就开始解释,会怎么样呢?
训练集和测试集中表现差异很大的模型,可能已经发生了过拟合。没有泛化能力的模型就像一盘散沙,要验证就散了 也就是说,在不同数据集上进行SHAP解释,可能会得到差异很大的结果。过拟合时,一些无关特征对模型的贡献可能被高估,筛选出没有实际意义的特征,反映出模型没能从真实的规律中学习到有用的模式。
其次,使用训练集或整体数据进行SHAP解释的情况并非没有,但需要发生在模型没有明显过拟合或欠拟合的情况下。
比如使用递归特征消除(RFE)方法时,可以确定哪些特征在训练集中对模型贡献最大,有助于进一步的特征筛选,优化模型。
或者提供模型在整个数据集上的解释结果,建立更全面的特征贡献视图。
咱们得意识到,
即使是做生信,
也是有被撤稿、拒稿的风险的。
没有永远风平浪静的科研。
但是,只要能充分吸收前人的经验,严谨、认真,珍惜科研羽毛地走好每一步,被拒稿、撤稿的风险就能一再减少,面对审稿人、评审专家、导师的提问时,也能再多一分镇定自若。
也多一分上升空间!
以eClinicalMedicine为例,可以发现发到柳叶刀知名子刊级别的机器学习文章,越来越有使用SHAP解释,甚至开发交互工具的倾向。
1月20日发表 3个月接收
1月17日发表 4个月接收
24年1月4日发表 3个月接收
做科研也要学会借力,
如果你认为SHAP解释+在线工具搭建
就是你的临门一脚,
就来找雪球陪跑吧。
✅立足生信 守正创新
✅上下限跨度广
✅适合优化分析/进阶分段/丰富前期背景等需求
✅涵盖众多实用创新套路
✅量身定制,绝无量产,绝不敷衍
生信学习笔记 有干货 才更新