探讨极端值（Outliers）对回归模型的影响

文摘 2024-08-15 08:00 新加坡

极端值的英文原文为Outliers，我自己其实一直不确定Outliers的常用翻译是什么，有些人可能也使用“异常值”，我在下述的文本中将统一使用Outliers。

Outliers在统计学实践中一直是一个比较恼人的问题，Outliers可能会使统计结果朝期待/不期待的方向偏移，而如何对Outliers进行处理则成了一件极具主观性的事情。

这篇文章并不试图教授Outliers的处理方法，我会通过一个基于回归模型的例子，来分享一些关于Outliers的思考。

我们现在想要调查上海市中学生智力对其学业表现的影响，假如其对应的总体数据如下：

我们可以从数据中很容易地观察到两变量的线性关系：

我们将这一线性关系用方程式表示，并将其称为该线性回归的总体模型：

在实践中，我们无法获取总体数据，自然也无法知晓总体模型。我们会从该总体中进行取样，在样本量足够大的情况，我们基于样本数据获得的样本模型虽然和总体模型有偏差（蓝色为样本模型，红色为总体模型），但比较接近：

现在我们来看一个特例，当我们的数据集中有一个智力很高，学业表现也异常好的个体（这一个体也来自于这一总体）时，会发生什么：

回归模型的直线由于这一个体有了很大的偏移（较总体模型而言），这是线性回归方法的固有缺陷：回归模型拟合的对象是样本数据，而非总体数据。

这个个体值在统计学上也被称为Outlier，我在初学统计学的时候会认为Outlier是某种异常值，或者说某种错误的东西，比如它可能是数据记录员的笔误。但从我们的例子可以看出，这一Outlier没有任何“错误之处”。它和其他数据点一样，都是总体数据中的一个点，出自于总体。

实践中对Outlier的处理方式通常是将Outlier剔除，但是在很多实验科学中，大家提出Outlier时的理由很有可能是认为Outlier是某种异常的，“错误的”实验结果导致的，所以需要删除。但从上述例子中可以看出，即使Outlier本身是某种合理流程的产物，但只要它离群，它就会使我们的统计结果产生偏差。因此，“离群”往往就足以作为将其剔除的充足理由了。

但是我们这里所说的“剔除”也不是将Outlier从数据集中永久抹去，统计学的实践是一种充满智慧的实践，我们关心的是：离群的Outlier是否会使我们的统计结果产生较大偏移？那么相应的解决办法不应该是直接剔除Outlier，而是对带有Outlier以及剔除Outlier的数据集分别进行回归分析，来观察模型的具体差异。

上述我十分简单地讲述了一些有关Outliers的理解，下面我们再简述一下Outliers为什么可以以一己之力对回归模型产生如此大的影响。

我们已经知道，回归模型的获得通过最小二乘法实现，而在我们的例子中，最小二乘法在做的事情无非是最小化直线到各个数据点的距离平方和，找到一条最贴合数据集的直线。

假如我们有一个数据集，并且带有一个离群点，那么我们可以想象，如果直线选择拟合“主体数据”而忽视离群点，最终付出的代价（距离平方和的增加），要远远大于“无条件拟合”离群点的代价。

如果我们尝试重复采样带有单个Outlier的数据集，并进行回归拟合，我们会发现Outlier处的残差方差异常的小，这也就暗示了回归直线始终穿过Outlier的周围，或者说回归直线“更照顾”Outlier：

我把用于生成上述图片的R代码上传到了粉丝群资料链接中，对该代码和生成过程感兴趣的粉丝可以自行下载研究！

如上，就是今日的全部内容。如果上述内容对您有帮助，欢迎关注本公众号，对本文点赞+在看，持续接收更多干货！

http://mp.weixin.qq.com/s?__biz=MzU0MzEwOTE2MQ==&mid=2247484801&idx=1&sn=ad571b54f6bfb61e901b6b42743e7a98

PsychoStatisticia

一个统计学研究者的个人天地

最新文章

聊聊为什么很多留学生的英语水平如此之差

用R语言实现科研数据高效预处理（一）

记录一下读博以来和导师的第一次“吵架”

在课题组里该不该用“师兄师姐”这样的敬称？

统计学是不是一门独立学科？

3分钟快速理解卷积的直观含义

思考鄙视链是突破认知瓶颈的最好方法

主成分分析（PCA）的数学推导

聊聊我对是否应该留在学术圈的一些思考

当统计检验不显著时，为什么要说“无法拒绝零假设”

如何获取优质的知识/信息源

【结构方程模型系列】结构方程模型与线性回归的联系

统计学上的无偏性，一致性以及有效性是什么？

我在荷兰大学的博士第一周

透彻解析拉格朗日乘数法

谈谈我对Ridge回归数学原理的一些新理解

【线性代数】二次型转化的小技巧与应用

12周统计提高班公开招生

【线性代数】直观理解伪逆矩阵

第一期统计学私教课学员反馈

写公众号半年了，来看看我赚了多少钱！

粉丝群入群新规则

贝叶斯与最大似然估计的联系

聊聊我成年后学会的最重要的人生道理

第一本讲义出炉+新粉丝群进群规则

聊聊回国一个多月来最大的感受

假设检验讲义早鸟价最后一天！！！

NBA球星告诉你，统计学中的辛普森悖论到底是什么？

可视化理解固定/随机效应模型

探讨极端值（Outliers）对回归模型的影响

从统计学的角度探讨中国奥运游泳队的服药疑云

985就读的我为什么要休学出国打工度假

聊聊我是如何实现谋生和理想的统一的

【旧文分享】聊聊培根与自我成长

贝叶斯与频数派的根本区别是什么？

发论文不应该成为做科研的主要目的

统计学讲义早鸟价订购+粉丝群新名额

聊一些中国人学习英语可能存在的错误认知

聊一个令我受益终生的学习秘诀/mindset

回国前聊聊在荷比念了两个硕士最大的收获

如何用一句话向外行人解释p值

为什么学好英语可能比数理化更有用

【线性装逼】全网最强奇异值分解证明

【线性天书】从线性代数的角度理解多重共线性的后果

本科生该不该积极参与科研项目？

【可视化理解特征向量】线代老师教不明白的，我来教！

为什么应该坚持阅读英文原文的学术著作

【线性代数】当我们在谈论特征根/特征向量时，我们到底在谈论什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉