前面从直观想法出发,通过逐步进行修正,最后成功构造了“方差”这一统计量。接下来遵循这种思想,构造成对数据的相关系数。接下来先说明这部分知识的由来,大家看起来思路才清晰。两个变量之间的数量关系无非就两种:函数关系和相关关系。函数关系是大家非常熟悉的。相关关系可以直观描述:当一个变量 取一定数值时,与之对应的另一个变量 的值虽然不完全确定,但它按某种规律在一定的范围内变化。这就很有趣了,生活中也是有很多例子,比如家庭收入和消费支出、人的身高和脚的长度、数学成绩和英语成绩、气温和热饮销量等等,之所以说是相关关系,是因为变量 是影响变量 的主要因素,但不是唯一因素,因为还有其他种种因素,而这些因素又不能人为完全把握。研究函数关系,可以利用数学分析的方法,这个大家学了那么多求函数解析式的方法,例如已知 和 之间具有线性关系,即 ,此时只需要知道变量的两组取值就可以确定函数表达式。但是研究相关关系就必须对变量进行多次观测,借助统计的相关思想和方法进行解决。由于相关关系的不确定性,寻找变量 和 之间的相关关系时,首先要对变量进行观测。怎么观测呢?设 次观测值为 。在直角坐标系 中,横坐标代表变量 ,纵左边代表变量 ,将数据利用坐标点的形式描绘出来,得到的图形称为散点图。如果这些点大致分布在一条直线附近,但是又不完全在一条直线上,说明变量间具有线性相关关系;如果这些点大致分布在一条曲线附近,说明变量间具有非线性相关关系;如果这些点的分布没有什么规则,说明这两个变量间没有相关关系。对于线性相关关系,在散点图中,如果这些点从左下角沿着右上角直线分布,那么两个变量正相关;如果这些点从左上角沿着右下角直线分布,那么两个变量负相关;散点在整体上和某一直线越接近,两个变量间的线性相关关系越强。这部分讲了“估计回归系数时的偏差平方和”时再进行说明,接下来进入主题。从定性角度来看,散点在整体上和某一直线越接近,两个变量间的线性相关关系越强。进而从定量角度分析,如何构造一个统计量来刻画两个变量间相关关系的强弱呢?直观观察,这些点大致分布在从左下到右上的一条直线附近,所以变量 和变量 之间是线性相关关系,并且是正相关。如果课堂上学生问这样一个问题:从散点图上看,变量 和变量 也可以是函数关系,用分段函数来表达其函数解析式。我觉得学生真的可以提出这个问题也是挺棒的,如果你是教师?怎样解答这个问题,欢迎大家留言交流。接下来,给出一般性的做法,然后结合这个例子来操作。
(1) 设 次观测值为 ,且 与 分别是 和 的平均值,将数据以 零点进行平移,得到平移后的成对数据:并画出散点图。对于这个例子:平移后的数据,红色对应变量 和变量 的平均值。这里就有一个问题了,为什么要这样进行平移?这个数据为什么要这样处理?大家请思考:
结合实际生活中来看,比如前面说的家庭收入和消费支出、人的身高和脚的长度、数学成绩和英语成绩、气温和热饮销量等,通过随机抽样获得的样本数据 都是正值,那么画出来的散点图数据都集中在第一象限。而“对于线性相关关系,在散点图中,如果这些点从左下角沿着右上角直线分布,那么两个变量正相关;如果这些点从左上角沿着右下角直线分布,那么两个变量负相关;散点在整体上和某一直线越接近,两个变量间的线性相关关系越强”。这一点深深地刺激了大脑,不禁联想起来:对于正比例函数 ,当 时,函数图象经过一、三象限;当 时,函数图象经过二、四象限;在本文这个例子中,变量 和变量 之间是线性相关关系,并且是正相关。仔细观察经过处理后得到的散点图,发现什么?这些点大多数分布在一、三象限,所以其横、纵坐标同号。那大家自己脑补一下,变量 和变量 之间是线性相关关系,并且是负相关呢?那经过处理后得到的散点图中,大多数点分布在二、四象限,所以其横、纵坐标异号。这样一处理,不仅使成对数据的关系是正相关还是负相关与正比例函数联系起来,还对构造统计量有了进一步的直观想法。(2) 在(1)的基础上,知道了是正、负相关关系的数据在坐标系中的分布特征,那接下来怎么构造这个统计量?大家继续思考
正相关,分布在一、三象限,其横、纵坐标同号;负相关,分布在二、四象限,其横、纵坐标异号。想起来乘法法则“同号得正、异号得负”。所以得到:平移之后得成对数据横、纵坐标之积的和的正负可以反映两个变量是正相关还是负相关。
所以在一般情形下,当 时成对样本数据正相关;当 时成对样本数据负相关。(3)到现在还是不满意,因为 受数据量纲的影响,为了消除量纲的影响,可以对数据进行标准化处理。用(这个公式打得我累), 称为变量 和变量 的样本相关系数。问题又来了,样本相关系数 的大小与成对样本数据的相关程度有什么内在联系呢?后面在分析相关分析与回归分析的关系时,对 将有进一步认识。
这里还要注意两点:
(1) 相关系数只是衡量变量间线性关系的密切程度,即使变量间有确定的非线性函数关系, 可能非常接近 。
(2) 当样本量 很小时,即使 非常接近 ,也不能表明变量间的线性关系很强,这是很容易理解的。
写到这里,相信大家对相关系数又有新的认识。那它有哪些应用呢?我突然想起来,教育研究里面很常用的“一致性研究”,涉及到“一致性系数”的计算,其底层逻辑就是计算“相关系数”的思维:研究一致性很有趣的,有试题与课程标准的一致性研究、教科书与课程标准一致性研究、课堂教学与课程标准一致性研究等等,现有的模式主要有基于Achieve、Sec、Webb三种模式的一致性分析,但是关键步骤“编码”主观性较大,近年来在我国不怎么受欢迎了。很多学者都在呼吁制定符合我国国情、符合中国教育特色的课程标准、试题等一致性分析框架,这有待大家努力。除了一致性系数的应用外,在教育测量中,测验的统计指标有难度、区分度、信度和效度都是应用相关系数,具体就不一一展开了。