高中概率与统计难点分析(必修部分):统计内容的理解与教学思考1
高中概率与统计难点分析(必修部分):统计内容的理解与教学思考2——数字特征的理解、方差公式是怎么构造出来的?
高中概率与统计难点分析(选修部分)3:成对数据的相关系数是怎么来的?
今天开始,准备正常更新了。
前面了解了成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等知识。但是并不满足于此,进一步地,如果能像建立函数模型来刻画两个变量之间的确定性关系那样,也能建立对应的统计模型来刻画两个随机变量的随机关系。
因此,下面将要探讨的问题就是当两个变量线性相关时,如何利用成对样本数据建立统计模型,并且利用模型进行预测的问题。
这里所要建立的统计模型就是一元线性回归模型,其中最重要的就是最小二乘思想。
最小二乘思想
如何去理解好最小二乘思想?这是最重要的。章建跃老师等通过对全国重点高中数学教师概率统计知识储备现状调查,发现许多一线教师对这部分内容的教学并不是很注重教学质量,仅对学生提出能够记住公式、能够利用公式进行简单计算的低级思维的层次要求,这种现象是很可怕的,可怕之处在于不仅会使学生失去重要的统计思维学习机会,还容易让学生产生消极的数学学习情感。随着新课标的颁布,对“概率与统计”主题提出了新的要求:学生掌握一元线性回归模型参数的最小二乘估计方法。
那么,最小二乘思想是什么?举一个例子大家就很容易明白了。
设对某个未知量重复做了次测量,其测量值依次为:,,...,,现在的目的就是如何利用所测的次测量值去计算真实值?
因为每次测量都有一定的误差,这些误差或正或负,或大一点或小一点。不妨设误差值依次为=-,其中。因为测量值在真实值附近,这就启发我们去找真实值,使得
最小。不要被上面这个看似复杂的函数吓到了。仔细观察你就发现了(你去括号就知道了,我懒,不想打公式),这不过是一个简单的、开口向上的二次函数,因此,当且仅当时达到最小。这里所用的思想就是最小二乘思想。可能有的读者会问,为什么要取平方和作为目标函数?其实,这只是构造目标函数的众多方法之一,当然可以取四次方的和或者是绝对值的和,取四次方等最后都可以归为计算平方和,而取绝对值的和取去构造目标函数的话就是大家常说的计算不方便,所以人们都偏向于取平方和,成为了一个普遍的选择。
回归系数的最小二乘估计
上面简单提及最小二乘的思想,回到探讨的问题:当两个变量线性相关时,如何利用成对样本数据建立统计模型,并且利用模型进行预测的问题。
设符合线性相关的两个变量、之间的关系为,其中为自变量,为因变量,是随机误差项,它反映了未列入方程的其他各种因素对的影响,并且还满足,。问题来了,为什么这样规定呢?而不是假设为某个不为的常数呢?这里大家琢磨一下:因为误差是一个随机量,即取到各种正负误差的情况一样,最理想的状态下就是,如果,那么可以将放入常数项中,否则模型就无法确定了,因为参数不存在唯一解。
将样本观测数据值为,其中,代入中,就得到模型
求得参数、的值,估计误差方差的值(高中不要求掌握)。就称为关于的一元线性回归模型。
怎么样去求参数、的值呢?大家可以看看前面构造方差、相关系数的内容,对理解这部分更有帮助哦。
明天继续。