相关性分析的一些概念
- 相关性(Correlation):指两个或多个变量之间的依存关系,即一个变量的变化与另一个变量的变化是否存在规律性。相关性不等同于因果关系,但可以为进一步的研究提供线索。
- 相关系数(Correlation Coefficient):是量化变量之间相关程度的统计指标,取值范围通常在-1到1之间。
- 正相关:当一个变量增加,另一个变量也增加,相关系数为正值。
- 负相关:当一个变量增加,另一个变量减少,相关系数为负值。
- 零相关:两个变量之间没有线性关系,相关系数接近 0。
回归分析则侧重于考察变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。通常被预测或解释的变量称为因变量(dependent variable)或结果变量(outcome variable)用y表示;用来预测或解释因变量的一个或多个变量称自变量(independent variable)或预测变量(predictor variable)用x表示。- 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。
- 利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。
当回归中只涉及一个自变量时,称为一元回归,若因变量y与自变量x之间为线性关系,则称为一元线性回归。在回归分析中,假定自变量x是可控制的,而因变量y是随机的,但很多情况下并非如此。本章所讨论的回归方法对于自变量是预先固定的和自变量是随机的情况都适用,但固定自变量的情况比较容易描述,因此下面主要讲述固定自变量的回归问题。 首先假设这两个变量是线性(linearly)相关的。假设变量x(自变量)的取值每增加一定量,变量y(因变量)的取值相应地增加(若正相关)或减少(若负相关)给定数量。这两个变量可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型(regression model)。只涉及一个自变量的一元线性回归模型可表示为:式中:
β1 :斜率(又称回归系数。x每变化一个单位,y平均变化β1个单位)ε :被称为误差项的随机变量,反映了除x和y之间线性关系之外的随机因素对y的影响,时不能由x和y之间线性关系所解释的变异性。 在一元线性回归模型中,y是x的线性函数β0+β1x加上误差ε。β0+β1x反应了由于x的变化而引起的y的线性变化;式中β0和β1称为模型的参数。此模型有以下几个主要假设:(2)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。 在上述两个假定下,对于任何一个给定的x值,y的取值都对应着一个分布,因此,E(y)=β0+β1x代表一条直线。但由于单个数据点是从y的分布中抽出来的,可能不在这条直线上,因此,必须包含一个误差项e来描述模型的数据点。(3)误差项ε是一个期望值为0的随机变量,即E(ε)=0。这意味着在上式中,由于β0和β1都是常数,有E(β0)=β0,E(β1)=β1。因此对于一个给定的x值,y的期望值为 E(y)=β0+β1x。这实际上等于假定模型的图示为一条直线。(4)对于所有的x值,ε的方差σ²都相同。这意味着对于一个特定的x值,y的方差都等于σ²。(5)误差项ε是一个服从正态分布的随机变量且独立,即ε~N(0,σ²)。独立性意味着一个特定的x值所对应的ε与其他x值所对应的ε不相关。因此,一个特定的x值所对应的y值与其他x值所对应的y值也不相关。这表明,在x取某个确定值的情况下,y的变化由误差项ε的方差σ²来决定。当σ²较小时,y的观测值将非常靠近直线;当σ²较大时,y的观测值将偏离直线。由于σ²是常数,所以y的取值不受x取值的影响。由于自变量x在数据收集前假设是固定的,因此,对于任何一个给定的值,y都服从期望值为β0+β1x、方差为σ²的正态分布,且对于不同的x具有相同的方差。如图: 根据回归模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0+β1x,也就是说,y的期望值是z的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程(regression equation)。一元线性回归方程的形式为: 一元线性回归方程的图示是一条直线,因此也称为直线回归方程。其中是回归直线在y轴上的截距,是当x=0时y的期望值;是直线的斜率,它表示x每变动一个单位,y的平均变动值。 如果回归方程中的参数β0和β1已知,对于一个给定的x值,利用式(E(y)=β0+β1x)就能计算出y的期望值。但总体回归参数和是未知的,必须利用样本数据去估计它们。用样本统计量房和及代替回归方程中的未知参数和,这时就得到了估计的回归方程(estimated regression equation)。它是根据样本数据求出的回归方程的估计。yi^=β0^+β1^xi
对于x和y的n对观测值,用于描述其关系的直线有多条,究竟用哪条直线来代表两个变量之间的关系,要有一个明确的原则。我们自然会想到距离各观测点最近的一条直线,用它来代表x与y之间的关系与实际数据的误差比其他任何直线都小。卡尔·高斯(CarlGauss,1777-1855)提出用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,也称最小平方法(method of least squares),它是通过使因变量的观测值yi与估计值yi^之间的离差平方和达到最小来估计β0和β1的方法。 简单回归分析的核心是找到一条最佳拟合直线,使得数据点到直线的距离之和最小。这条直线的方程通常表示为:如果将这些数据画在一个简单的图形上,就得到了一个散点图(scatterplot)。这个散点图中研究中每一个对象都对应一个数据点。注意到每一个数据点都位于变量X和变量Y的交汇处。散点图中的数据反映出一种相当明显的趋势。注意到这些点从图的左下角到右上角以相对一致的步调上升,这种形状清楚地表明了变量X和变量Y之间存在正向关系(即相关)。 根据最新二乘法,使最小。令Q=Σ(yi-yi^)²,在给定样本数据后,Q是β0^和β1^的函数,且最小值总是存在,可得出:式中:
β0^:β0(截距)的估计值
β1^:β1(斜率)的预估值
yi:第i个观测值的因变量
xi:第i个观测值的自变量
y-:因变量y的样本均值
x-:自变量x的样本均值
当x=x-时,y^=y-,即回归直线yi^=β0^+β1^xi通过点(x-,y-),这是回归直线的重要特征之一。------------------------------
1. Correl函数:在单元格内输入“=CORREL”回车,在出现的括号中选择“第一组数值单元格区域",输入“,”再选择“第二组数值单元格区域”后回车。单元格内即出现结果。
说明:
- 若 array1 和 array2 的数据点的个数不同,则 CORREL 返回错误值 #N/A。
- 若 array1 或 array2 为空,或者其数值的 s(标准偏差)等于零,则 COREL 返回错误值 #DIV/0!。
- 若数组或引用参数包含文本、逻辑值以及空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
2. 皮尔生函数:在单元格内输入“=PEARSON”回车,在出现的括号中选择“第一组数值单元格区域",输入“,”再选择“第二组数值单元格区域”后回车。单元格内即出现结果。说明:
- 数可以是数字,或是包含数字的名称、数组常量或引用。
- 若数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
- 若 array1 和 array2 为空或其数据点个数不同,则 PEARSON 返回错误值 #N/A。
WPS散点图及趋势线绘制:
PS:部分内容摘抄自《统计学》(第八版)贾俊平 何晓群 金勇进 编著