回归系数的最小二乘估计
昨天谈了最小二乘思想及一元线性回归模型的简单概念,“宜将剩勇追穷寇,不可沽名学霸王”,今天继续学习。
问题:设线性相关的两个变量的样本观测数据为,其中i=1,2,...,n,用最小二乘思想去估计一元线性回归模型中的系数,得到关于的经验回归方程这就是回归系数的最小二乘估计。
如图1-1,再直白一些,就是去找一条适当的直线,使表示成对样本数据的这些散点在整体上这条直线最接近。
在上课时,如果教师没有提前给学生介绍最小二乘思想,可能学生会有许多漫无边际的想法,此时应该对确定回归直线的方法提出一些基本要求:尽可能利用全部数据,体现整体偏差最小,便于数学计算,结果准确等。
下面将模拟课堂,对学生提出的方法逐步修正,最后引导使用最小二乘法估计参数得到回归直线方程。
怎么样找出这条直线?使各散点在整体上与此直线尽可能接近呢?同学们思想开花了,各种各样的想法呈现了出来:
方法1
先画出一条直线,根据点到直线的距离公式,计算出各点到该直线的距离,然后移动直线,达到一个使距离的和最小的位置。计算出此时的斜率和截距,进而就确定了直线方程。
分析:该方法理论上可行,体现了整体偏差最小的思想,但是难以实现,计算量太大,很难得到确定的结果。
方法2
选择散点图的两点画直线,使得这条直线两侧的点的个数基本相同,然后根据两点式确定直线方程。
分析:这种方法没有利用到全部数据信息,结果会因人而异。
方法3
用多条直线的斜率和截距的平均值作为回归直线的斜率和截距。
分析:这种方法既没有利用全部数据信息,也没有体现整体误差最小的思想,结果不确定。
方法4
设回归方程为,是第个观测值的偏差,是第个观测点到回归直线的距离,设为回归直线的倾斜角,则
要使距离和最小,即求使得
最小。分析:该方法是方法1的严格化。
方法5
求使得
最小。
分析:方法5和方法4等价,相比而言,方法5利用了全部数据,体现整体偏差最小的思想,结果当然是唯一确定的,唯一的缺点就是不便于数学计算。
方法6
其实如果教师引导到这里,再结合前面所学的构造方差、相关系数公式等基础知识,就容易得到构造偏差平方和最小。即求使得
达到最小。
分析:这就是最小二乘法,该方法的优点是有效利用了全部测量数据,使误差平方和达到最小,防止了某一极端误差对决定参数估计取得支配性地位。
下面的目的就是根据最小二乘思想求使得上式最小,直接配方法比较复杂;用求导法超出了要求(中学只讲一元函数求导)。是否有简便的方法呢?
教材上就是利用配方法求出的,这样处理有一点不好理解,大家可自行看看书,体会一下。
下面使用另一种理解方式来求解,根据模型的假定,,说明个误差观测值的近似和为0,即
对样本观测数据为,其中i=1,2,...,n,由知:故另外,与等价。所以得到老问题了,上式展开是关于的二次三项式根据二次函数的性质就可以得到当时,取到最小值。此时将得到的称为经验回归方程。
以上就是利用最小二乘思想去估计一元线性回归模型的全部内容,当然了,最小二乘法在数学分析和数值分析里面都讲过,在数学分析里面直接用多元函数求最值计算,在数值分析里面可以通过建立法方程求解。关于回归的模型也还有很多很多,并不是只有线性回归模型,还有多项式回归、指数回归、幂回归等,这些内容更像是有插值或拟合的味道在里面。
最后,谈一下之前遗留的一个问题:相关和回归的关系
对双变量的研究关系,在进行定性分析的基础上,需要进行定量分析。定量分析的两种方法就是相关分析和回归分析。
相关分析和回归分析具有共同的研究对象,在具体应用时,需要相互补充。相关分析是计算相关系数来反映变量间的相关关系的密切程度,回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来预测变量间的变化关系。
作相关分析需要依靠回归分析表明变量相关的具体形式,而进行回归分析需要通过相关分析表明变量间的相关程度,只有变量间存在高度相关时,进行回归分析才有意义。
相关分析不必确定哪个变量是自变量,哪个变量是因变量;而回归分析本身就是进行估算和预测的一个主要方法,因此必须事先知道具有相关关系中的哪个变量为自变量,哪个变量为因变量。
好了,今天就到这,明天休息。接下来将进行列联表与独立性检验的学习,欢迎大家及时指出错误,一起进步。
更多内容请关注:
高中概率与统计难点分析(必修部分):统计内容的理解与教学思考1
高中概率与统计难点分析(必修部分):统计内容的理解与教学思考2——数字特征的理解、方差公式是怎么构造出来的?
高中概率与统计难点分析(选修部分)3:成对数据的相关系数是怎么来的?
高中概率与统计难点分析(选修部分)4:一元线性回归模型之最小二乘思想