拟合模型的图形化解读:JMP 杠杆图实例

科技   2024-07-10 12:46   上海  

点击蓝字,关注我们

数据分析软件 | JMP


本文作者



吴老师 - JMP 数据分析师


在拟合模型平台中,杠杆图最常见且包含很多数据后背的潜在信息,今天这篇文章,我们就来着重介绍一下杠杆图,希望大家能够对判读图形背后的含义有全新的启发。


杠杆图(Leverage Plots)与散点图(Scatter Plots)有点相似,其主要差异为散点图无法同时考虑其他效应项对估计效应项的影响(图 1),斜率可以看出有差异,尤其发生在多个效应项要一同评估的时候。


图 1 杠杆图 VS 散点图


下图显示了如何在杠杆图中描述残差。从某个点到拟合线的距离是包含该效应的模型的残差。从该点到水平线的距离是模型中不含该效应时的剩余误差。换言之,杠杆图中的均值线表示参数(效应)的假设值被限制为 0 时的模型。




通过杠杆图,我们能发现什么?




杠杆图通常可以帮助我们发现下面的现象:

1. 不寻常的图形模式或是有违反模型的假设

2. 多重共线性

3. 特殊有影响的观测值或异常值


JMP 中的杠杆图




JMP 提供两种杠杆图参考。


1

效应杠杆图

(Effect Leverage plots)


在给定其他效应项在模型中时,预估计效应项的影响。


图 2 效应杠杆图


效应杠杆图(图 2)本质上是 X 残差对应 Y 残差的分布图


 X 残差  


X 残差是估计效应项 Xe 与其余的预测变量进行回归分析后得到的残差(公式 3)。


公式 3


 Y 残差


Y 残差是由排除了该估计效应项 Xe 后,其余的预测变量与 Y 进行回归分析得到的残差(公式  2)。


公式 2


为了更好地与其他杠杆图做比较,JMP 将 X 残差以及 Y 残差分别加入估计效应项 Xe 均值与 Y 的均值并绘制在杠杆图中,又称 X 杠杆值与 Y 残差杠杆值。


如前文中图 2,搭配最小二乘法(least squares)拟合直线(红色线)并且加入置信区间,其效应杠杆图中拟合线斜率 βe(公式 4)与 Y 拟合所有 X 效应项得到 Xe 的系数 βe(公式 1)相同;而斜率不为 0 时,代表 Xe 效应项可以解释 Y 的变异,蓝色线为 Y 杠杆值的均值,可以用来协助判断 X 残差与 Y 残差有无线性关系,当拟合线越接近蓝色线,代表加入 Xe 效应项无法解释 Y 的变异,等同于 Y 变异充分地被 Xe 以外其他效应项解释,Y 残差会趋近于 0(公式 2),所以 Y 残差杠杆值会趋近于蓝色线(图 3 最右手边不显著的那张图)



图 3 显著性图形判断


如何判断要估计的 X 效应项是否显著呢?如同前述,当红线越靠近蓝线时,且信赖区间包含蓝线时,该效应项不显著,假设红线越倾斜,且信赖区间不包含蓝线,代表该效应项显著,假如杠杆观测点都很接近中心,则需要进一步针对效应项确认(图 2)Y 残差由排除了该估计效应项 Xe 后,其余的预测变量与 Y 进行回归分析得到的残差(公式 2)


总结前文所述公式 👇


2

全模型杠杆图

(The Whole Model leverage plot)


了解是否有任一效应项会影响 Y 的变异。


针对全模型杠杆图(图 4)是考虑所有效应项绘制在图型上,不考虑截距项,预测值绘制在 X 轴,实际值绘制在 Y 轴,其原(虚无)假设为效应项都不显著。


图 4 全模型杠杆图


案例




下面介绍几个帮助大家进行杠杆图判断的案例。


1

案例一

以解释变数 PNP1 和 PNP4 与 Y: NPN1 建立模型,从杠杆图能够获得什么信息?

吴老师


效应杠杆图发现点会向 X 轴中间集中,因为 X 轴为 PNP1 与 PNP4 做完回归分析得到的残差,代表 PNP1 与 PNP4 具有共线性,置信区间也包含蓝色线,代表效应不显著。


图 5


首先确认 PNP1 和 PNP4 的相关性,使用 JMP Multivariate 平台进行分析,PNP1 与 PNP4 出现高度相关(图 6)。


图 6


由效应估计表(图 7)中的 VIF 远大于 10,也知道 PNP1 与 PNP4 为高度共线性,需要再做后续的多变量分析处理如主成分分析等。


图 7

结论:杠杆图能了解参数间是否具有共线性问题。

吴老师


2

案例二


以解释变量 PNP1 和 IVP1 与 Y: NPN1 建立模型,请试着解释杠杆图(如图 8)所呈现的结果。


图 8


结论:图中很明显有一异常点,由红色线与蓝线几乎重合的情况可判断 IVP1 与 PNP1 皆不显著,从全模型杠杆图也可看出包含两变数的模型无法充分解释 Y 的变异。

吴老师


总结




可以在解读分析报表前,图形化的 JMP 杠杆图可以帮助我们了解 Y 与 X 效应项间的关系、X 效应项间自身的关系以及异常点等问题判断,此外也避免使用的一对一散点图判断,从更全面及直观的角度去分析数据。


推荐学习




如果您对 JMP 可视化解读感兴趣,不妨收藏这份 JMP 可视化速查j手册!在不知道怎么画图的时候,随手拿出来查看一下吧~


点击图片即可进入噢~



近期微信公众号又又又更改了规则,各位亲爱的JMPer们一定要把我们"星标⭐"起来,否则你就接收不到我们的推送啦。


只需两步👇 把JMP星标起来,这样你不会失去我们啦~



JMP官方微信公众号

敏捷分析 成就无限

分享

收藏

点赞

在看


点击“阅读原文”,免费试用 JMP!

JMP数据分析
JMP是全球领先的数据分析方法及咨询供应商,致力于帮助客户从数据中获取价值,优化决策,驱动创新,成就未来。
 最新文章