逐步推导Bias-variance分解公式

文摘 2025-01-21 08:00 荷兰

Bias-variance decomposition是机器学习与高维统计中一个比较基本的数学公式，我最早的时候在看ISLR时看到过：

最近在学习高维统计的时候又看到了，之前上课的时候自己尝试推过这个公式，但是总是觉得陌生，这次学习了以后又尝试自己推了一次，总算是熟记于心了，所以也把过程详细地写下来！对这个公式推导比较了解的读者可以不用往下读了！

首先，假设以下模型：

这一模型是一个十分universal的模型，y为真值，epsilon为噪音，y_obs为我们观察到的数据值。在机器学习和以预测为目的的统计学习中，我们希望通过以下方式来预测真值y：

也就是说，f(x)为我们拟合的模型，我们将通过其输出的预测值来预测真值y。当我们对具体的模型进行评估时，我们可以用以下度量方式：

它是指预测值与真值差值平方的期望值，或者说预测值与真值差值平方和的平均值。这个值具有什么特点呢？我们首先可以对其进行一个简单的数学操作如下：

我们减去了一个E[y_hat]，又加回了一个E[y_hat]。注意，y_hat在这里是一个随机变量，而E[y_hat]代表了模型估计的期望值，它和我们在讨论某个估计量是否无偏时，估计量的期望值是一个道理（详情见《》）。对于上式，我们可以将括号中的前两项视作一个整体，后两项视作一个整体，通过完全平方得到下式：

由于期望的线性计算法则（Linearity），我们可以将其分解为：

我们将目光聚焦于第三项，在这一项中，第一个括号内的y是真值，是固定值（constant），E[y_hat]也为固定值，所以我们可以将其从期望中提出，获得如下式：

接下来通过期望的线性计算法则，我们计算出该项为0：

因此，我们可以将预测值与真值差值平方的期望值用前两项表示：

其中第一项由于是常数，所以我们可以将原先带有的期望符号去掉。注意，第一项的括号内代表的实际上是模型估计的Bias，当Bias=0时（比如Ordinary least squares estimator），第一项Bias的平方即为0；第二项实际上是y_hat的方差（y_hat与其期望值差值的平方的期望）。

简而言之，我们预测模型真值的误差，主要由两项决定，一是模型估计值的Bias，二是模型估计值的Variance。要想提高模型的预测表现，我们就必须尽量减小二者。在具体实践中，我们经常面临“鱼和熊掌不可得兼”的情况，所以要进行Bias-variance trade-off，寻找最优的模型！

PsychoStatisticia

一个统计学研究者的个人天地

最新文章

免费送书啦～价值百元【机器学习入门必读好书】！！！

逐步推导Bias-variance分解公式

R语言中，for循环是不是比while更高效？

设计了几个统计学与学术主题的马克杯

用R语言实现科研数据高效预处理（二）练习题

一个欧陆心理统计学博士的科研内容与日常

用R语言实现科研数据高效预处理（二）

很多人可能都不太理解的“数据科学”这一概念

透彻理解卡方检验

聊聊读博三个月来对我最重要的东西

用R语言实现科研数据高效预处理（一）练习题

如何从线性回归的角度理解主成分分析

聊聊为什么很多留学生的英语水平如此之差

用R语言实现科研数据高效预处理（一）

记录一下读博以来和导师的第一次“吵架”

在课题组里该不该用“师兄师姐”这样的敬称？

统计学是不是一门独立学科？

3分钟快速理解卷积的直观含义

思考鄙视链是突破认知瓶颈的最好方法

主成分分析（PCA）的数学推导

聊聊我对是否应该留在学术圈的一些思考

当统计检验不显著时，为什么要说“无法拒绝零假设”

如何获取优质的知识/信息源

【结构方程模型系列】结构方程模型与线性回归的联系

统计学上的无偏性，一致性以及有效性是什么？

我在荷兰大学的博士第一周

透彻解析拉格朗日乘数法

谈谈我对Ridge回归数学原理的一些新理解

【线性代数】二次型转化的小技巧与应用

12周统计提高班公开招生

【线性代数】直观理解伪逆矩阵

第一期统计学私教课学员反馈

写公众号半年了，来看看我赚了多少钱！

粉丝群入群新规则

贝叶斯与最大似然估计的联系

聊聊我成年后学会的最重要的人生道理

第一本讲义出炉+新粉丝群进群规则

聊聊回国一个多月来最大的感受

假设检验讲义早鸟价最后一天！！！

NBA球星告诉你，统计学中的辛普森悖论到底是什么？

可视化理解固定/随机效应模型

探讨极端值（Outliers）对回归模型的影响

从统计学的角度探讨中国奥运游泳队的服药疑云

985就读的我为什么要休学出国打工度假

聊聊我是如何实现谋生和理想的统一的

【旧文分享】聊聊培根与自我成长

贝叶斯与频数派的根本区别是什么？

发论文不应该成为做科研的主要目的

统计学讲义早鸟价订购+粉丝群新名额

聊一些中国人学习英语可能存在的错误认知

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉