高中概率与统计难点分析(选修部分)3:成对数据的相关系数是怎么来的?

文摘   2024-08-12 10:17   云南  
高中概率与统计难点分析(必修部分):统计内容的理解与教学思考1
高中概率与统计难点分析(必修部分):统计内容的理解与教学思考2——数字特征的理解、方差公式是怎么构造出来的?
前面从直观想法出发,通过逐步进行修正,最后成功构造了“方差”这一统计量。接下来遵循这种思想,构造成对数据的相关系数。接下来先说明这部分知识的由来,大家看起来思路才清晰。
1、相关关系——变量间的不确定关系
两个变量之间的数量关系无非就两种:函数关系相关关系。函数关系是大家非常熟悉的。相关关系可以直观描述:当一个变量  取一定数值时,与之对应的另一个变量  的值虽然不完全确定,但它按某种规律在一定的范围内变化。这就很有趣了,生活中也是有很多例子,比如家庭收入和消费支出、人的身高和脚的长度、数学成绩和英语成绩、气温和热饮销量等等,之所以说是相关关系,是因为变量  是影响变量  的主要因素,但不是唯一因素,因为还有其他种种因素,而这些因素又不能人为完全把握。
研究函数关系,可以利用数学分析的方法,这个大家学了那么多求函数解析式的方法,例如已知  和  之间具有线性关系,即  ,此时只需要知道变量的两组取值就可以确定函数表达式。但是研究相关关系就必须对变量进行多次观测,借助统计的相关思想和方法进行解决。
2、散点图——描述相关关系的直观关系
由于相关关系的不确定性,寻找变量  和  之间的相关关系时,首先要对变量进行观测。怎么观测呢?设  次观测值为  。在直角坐标系  中,横坐标代表变量  ,纵左边代表变量  ,将数据利用坐标点的形式描绘出来,得到的图形称为散点图
接下来好玩的来了。
如果这些点大致分布在一条直线附近,但是又不完全在一条直线上,说明变量间具有线性相关关系;如果这些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;如果这些点的分布没有什么规则,说明这两个变量间没有相关关系。对于线性相关关系,在散点图中,如果这些点从左下角沿着右上角直线分布,那么两个变量正相关如果这些点从左上角沿着右下角直线分布,那么两个变量负相关;散点在整体上和某一直线越接近,两个变量间的线性相关关系越强
3、相关分析和回归分析的关系
这部分讲了“估计回归系数时的偏差平方和”时再进行说明,接下来进入主题。
4、如何构造样本相关系数
从定性角度来看,散点在整体上和某一直线越接近,两个变量间线性相关关系越强。进而从定量角度分析,如何构造一个统计量来刻画两个变量间相关关系的强弱呢?
下面以一个例子来看,原始数据(样本具有代表性):

散点图:

直观观察,这些点大致分布在从左下到右上的一条直线附近,所以变量  和变量  之间是线性相关关系,并且是正相关如果课堂上学生问这样一个问题从散点图上看,变量  和变量  也可以是函数关系,用分段函数来表达其函数解析式我觉得学生真的可以提出这个问题也是挺棒的,如果你是教师怎样解答这个问题,欢迎留言交流。
接下来,给出一般性的做法,然后结合这个例子来操作。
(1) 设  次观测值为  ,且  与  分别是  和  的平均值,将数据以  零点进行平移,得到平移后的成对数据:
  
并画出散点图。对于这个例子:平移后的数据,红色对应变量  和变量  的平均值。

平移后对应的散点图:

这里就有一个问题了,为什么要这样进行平移?这个数据为什么要这样处理?大家请思考:
结合实际生活中来看,比如前面说的家庭收入和消费支出、人的身高和脚的长度、数学成绩和英语成绩、气温和热饮销量等,通过随机抽样获得的样本数据  都是正值,那么画出来的散点图数据都集中在第一象限。而“对于线性相关关系,在散点图中,如果这些点从左下角沿着右上角直线分布,那么两个变量正相关如果这些点从左上角沿着右下角直线分布,那么两个变量相关;散点在整体上和某一直线越接近,两个变量间的线性相关关系越强”。这一点深深地刺激了大脑,不禁联想起来:对于正比例函数  ,当  时,函数图象经过一、三象限;当  时,函数图象经过二、四象限;
在本文这个例子中,变量  和变量  之间是线性相关关系,并且是正相关。仔细观察经过处理后得到的散点图,发现什么?这些点大多数分布在一、三象限,所以其横、纵坐标同号
那大家自己脑补一下,变量  和变量  之间是线性相关关系,并且是负相关呢?那经过处理后得到的散点图中,大多数点分布在二、四象限,所以其横、纵坐标
这样一处理,不仅使成对数据的关系是正相关还是负相关与正比例函数联系起来,还对构造统计量有了进一步的直观想法。
(2) 在(1)的基础上,知道了是正、负相关关系的数据在坐标系中的分布特征,那接下来怎么构造这个统计量?大家继续思考
相关,分布在一、三象限,其横、纵坐标同号相关,分布二、四象限,其横、纵坐标。想起来乘法法则“同号得正、异号得负”。所以得到:
平移之后得成对数据横、纵坐标之积的和的正负可以反映两个变量是正相关还是负相关
加上为了消除样本量  的影响,构造
  
所以在一般情形下,当  时成对样本数据正相关;  时成对样本数据负相关。
(3)到现在还是不满意,因为  受数据量纲的影响,为了消除量纲的影响,可以对数据进行标准化处理。用
  ,  
分别  和  ,得
  
为简单起见,将上述对应得数据记为
  
仿照  的构造,得到
  
  
(这个公式打得我累),  称为变量  和变量  的样本相关系数
不难发现,  相比较于  ,所以有
当  时,样本数据正相关;
当  时,样本数据正相关。
问题又来了,样本相关系数  的大小与成对样本数据的相关程度有什么内在联系呢?
因此要先考虑  的取值范围。教材上是这样处理的:

后面在分析相关分析与回归分析的关系时,对  将有进一步认识。

这里还要注意两点:

(1) 相关系数只是衡量变量间线性关系的密切程度,即使变量间有确定的非线性函数关系,  可能非常接近  。

(2) 当样本量  很小时,即使  非常接近  ,也不能表明变量间的线性关系很强,这是很容易理解的。

写到这里,相信大家对相关系数又有新的认识。那它有哪些应用呢?我突然想起来,教育研究里面很常用的“一致性研究”,涉及到“一致性系数”的计算,其底层逻辑就是计算“相关系数”的思维:

研究一致性很有趣的,有试题与课程标准的一致性研究、教科书与课程标准一致性研究、课堂教学与课程标准一致性研究等等,现有的模式主要有基于Achieve、Sec、Webb三种模式的一致性分析,但是关键步骤“编码”主观性较大,近年来在我国不怎么受欢迎了。很多学者都在呼吁制定符合我国国情、符合中国教育特色的课程标准、试题等一致性分析框架,这有待大家努力。
除了一致性系数的应用外,在教育测量中,测验的统计指标有难度、区分度、信度和效度都是应用相关系数,具体就不一一展开了。

从薄到厚学数学
数学不仅拥有真理,而且拥有至高无上的美——一种冷峻严肃的美,就像是一尊雕塑...这种美没有绘画或音乐那样华丽的装饰,它可以纯洁到崇高的程度,能够达到严格的只有最伟大的艺术才能显示的完美境界。。。罗素
 最新文章