两变量关系:确定性(函数关系)和非确定性
回归分析两变量数量依存关系
“回归”一词最早由Galton在一项有关父亲与儿子身高的研究中提出。
线性回归的概念及其统计描述
例 某地一年级12名女大学生的体重与肺活量数据如下,试绘制其散点图
1.肺活量有随体重增加而增大的趋势,且散点呈直线趋势
2.12个点并非恰好都在一条直线上
直线回归:研究两变量线性依存关系的统计方法
简单线性回归模型
Y1:第i个个体的 应变量值
X1:第i个个体的自变量值
α:回归直线的截距参数
β:回归直线的斜率参数
ε1:误差
通常情况下,研究者只能获取一定数量的样本数据,用该样本数据建立的有关两变量线性依存关系的表达式称为直线回归方程
直线回归方程的建立
直线回归方程的一般表达式
(经验回归方程或样本回归方程)
x:自变量
y:x所对应y的总体均数的一个样本估计值
a:回归直线在y轴上的截距,即x=0时的值
a>0-回归直线在纵轴的交点在原点上方
a<0-回归直线在纵轴的交点在原点下方
a=0-回归直线通过原点
b:回归系数,是直线的斜率
b的统计学意义:自变量x改变一个单位时,应变量y平均变化b个单位。
b>0-回归直线从左下方走向右上方,即y随x增大而增大
b<0-回归直线从左下方走向右下方,即y随x增大而减小
b=0-回归直线平行于x轴,y与x无线性依存关系
最小二乘法原理:保证各实测点到直线的纵向距离的平方和最小
直线回归分析步骤:
1.有原始数据及散点图的初步分析,估计本例资料有直线趋势,故作下例计算(作散点图)
4.求回归系数b和截距a
5.列出回归方程
直线回归方程的图示
在自变量x的范围内任取相距较远且易读数的两个x值代入直线回归方程。
得到两点(42,2.47)(58,3.41)
所绘直线必通过。
将此线延长与y轴相交,交点的纵坐标必等于截距a
与(0,a)可用于核对图形绘制是否正确。
回归模型的前提假设
线性回归模型的前提假设:
线性 (Linear)
独立 (Independent) 任意两个观察互相独立—专业知识
正态 (Normal) 给定X值时,应变量服从正态分布,服从正态分布-残差图
等方差(Equal variance) 不论x取什么值,Y都具有相同的方差-残差图
直线回归方程的假设检验
总体回归系数是否为零,即β是否为零。
H0:β=0,即两变量间无直线关系
H1:β≠0,即两变量间有直线关系
1.方差分析变异分解(应变量y)
(1)建立假设,确定检验水准
H0:β=0,即两变量间无直线关系
H1:β≠0,即两变量间有直线关系
α=0.05
2.t检验
直线回归的应用
(1)直线回归方程可用来描述两变量间依存变化的数量关系
(2)利用回归方程进行预测
直线回归分析中应注意的问题
回归方程的重要应用方面。
预测:把预报因子(自变量x)代入回归方程对预报量(应变量y)进行估计,其波动范围可按求个体y值容许区间方法计算。
(3)利用容易测量的指标估计不易测量的指标体重与体表面积
(4)利用回归方程获得精确度更高的医学参考值范围 体重与肺活量
(5)利用回归方程进行统计控制
统计控制:利用回归方程进行逆估计,如要求应变量y在一定范围内波动,可以通过控制变量x的取值来实现。
例:某市环境监测站在某交通点连续测定3天,测得大气中NO2浓度(mg/m3)y,与当时汽车流量x(辆/小时),共9对数据,求得回归方程x=1152.16(辆/小时)
直线回归分析中应注意的问题
1.直线回归分析的应用条件为:应变量与自变量关系为线性、误差服从正态分布、各观测值独立等。对这些假设条件的检查较为简单有效的方法是考察回归模型的残差图。
2.作回归分析时一定要有实际意义。
3.回归分析之前首先应绘制散点图。
4.应用直线回归方程进行预测时,自变量一般不应超出样本实测值的取值范围。
5.两变量间的直线关系不一定是因果关系,也可能是伴随关系,即两个变量的关系可能同受另一个因素的影响。
6.直线回归分析中反映自变量对应变量数量上影响大小的统计量是回归系数b,而不是假设检验的P值。
直线相关
直线相关的概念
1.概念:是一种研究两个变量之间的线性相关关系(相关的方向和密切程度)的一种统计方法。
2.应用条件:双变量正态分布。
相关系数的意义与计算
1.表示具有直线关系的两变量间相关方向与密切程度
2.计算公式
相关系数没有单位,-1≤r≤1
r>0:正相关
r<0:负相关
∣r∣-1:完成相关
∣r∣=0:无直线相关
相关系数的假设检验
Sr为相关系数的标准误
例:检验女大学生体重与肺活量间是否有直线相关关系
(两变量在专业上有意义,且须先绘制散点图)
Sr为相关系数的标准误
H0:ρ=0,两变量间无直线相关关系
H1:ρ≠0
α=0.05
其中,n=12,r=0.7495
2.查表法:求出r后,按自由度v=n-2,查r界值表
线性相关中应注意的问题
1.样本的相关系数接近零并不意味着两变量间一定无相关性。
2.一个变量的数值人为选定时莫作相关。
3.出现异常值时慎用相关。
4.相关未必真有内在联系。
5.分层资料盲目合并易出假象。
直线回归与相关的区别和联系
1.区别
(1)在资料要求上,回归要求因变量y服从正态分布,x是可以精确测量和严格控制的变量;相关要求两个变量服从双变量正态分布。
(2)在应用上,说明两变量间依存变化的数量关系用回归。说明变量间的相关关系用相关。
(3)意义上,回归系数b表示x每增减一个单位,y平均改变b个单位,相关系数r说明具有直线关系的两个变量间相关关系的密切程度与相关方向。
(4)计算上,
(5)取值范围,
(6)单位,b有单位,r没有单位
2.联系
(1)对一组数据若同时计算r与b,他们的正负号是一致的。
r为正号说明两变量间的相互关系是同向变化的。b为正,说明x增(减)一个单位,y平均增(减)b个单位。
(2)r和b的假设检验是等价的,即对同一样本,二者的t值相同(tr=tb)
(3)用回归解释相关
决定系数
①定义:相关系数的平方r2
②公式:
③意义:
反应应变量y的总变异中,可用回归关系解释的比例,可作为回归模型拟合效果的指标,可作为判断两变量间的相关关系实际意义大小的指标。
例:r=0.2,n=100,按α=0.05的水准拒绝H0,接受H1,认为两变量有相关关系,但R2=(0.2)2=0.04。说明两变量间的相关关系实际意义不大。
(4)对同一样本,b和r可以相互换算:
秩相关
应用条件
1.不服从双变量正态分布
2.总体分布类型未知
3.原始数据是用等级表示的
案例分析
例 某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见下表,试用秩相关进行分析。
1.建立假设,确定检验水准
3.确定P值,作出统计推断
(1)查表法
n≤50,查rs界值表
(2)t检验
【例题】对同一组资料同时进行相关与回归分析,下列哪项是正确的 | |
| 『正确答案』B |
【例题】已知r=0,则一定有 | |
| 『正确答案』E |
【例题】回归方程中,b的统计意义为 | |
| 『正确答案』D |
【例题】关于相关与回归,哪项是错误的( ) | |
| 『正确答案』D |