今天,小编给大家选取了在学习线性OLS回归分析中不可不知的44个关键词。
回归(regression):发生倒退或表现倒退;常指趋于接近或退回到中间状态。在线性回归中,回归指各个观察值都围绕、靠近估计直线的现象。
多元回归模型(multiple regression model):包含多个自变量的回归模型,用于分析一个因变量与多个自变量之间的关系。它与一元回归模型的区别在于,多元回归模型体现了统计控制的思想。
因变量(dependent variable):也称为依变量或结果变量,它随着自变量的变化而变化。从试验设计角度来讲,因变量也就是被试的反应变量,它是自变量造成的结果,是主试观测或测量的行为变量。
自变量(independent variable):在一项研究中被假定作为原因的变量,能够预测其他变量的值,并且在数值或属性上可以改变。
随机变量(random variable):即随机事件的数量表现。这种变量在不同的条件下由于偶然因素影响,可能取各种不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的。
连续变量(continuous variable):在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值,比如身高、体重等。
名义变量(nominal variable):本身的编码不包含任何具有实际意义的数量关系,变量值之间不存在大小、加减或乘除的运算关系。
随机变量(random variable):即随机事件的数量表现。这种变量在不同的条件下由于偶然因素影响,可能取各种不同的值,具有不确定性和随机性,但这些取值落在某个范围的概率是一定的。
截距(intercept):函数与y坐标轴的相交点,即回归方程中的常数项。
斜率(slope):即回归方程中各自变量的系数。它表示自变量一个单位的变化所引起的因变量的变化量,如果是线性模型,则在坐标图上表现为两个变量拟合直线之斜率。
偏效应(partial effect):在控制其他变量的情况下,或者说在其他条件相同的情况下,各自变量X对因变量Y的净效应(net effect)或独特效应(unique effect)。
效应幅度(size of effect):指反映变量作用大小的具体数值。一个变量的系数可能在统计上显著地区别于0,但是该系数的值却不大,即效应幅度很小,从而不具有很大的实质性意义。
拟合优度(goodness of fit):指回归模型对观察数据的概括拟合程度,反映的是模型的效率,即模型在多大程度上解释了因变量的变化。
误差(error):指可以避免或不可避免的观测值和真实值之间的差。
预测值(predicted values):通过根据估计的回归模型代入解释变量观察值后计算得到的因变量值。
总平方和(sum of squares total):即因变量观察值与其平均值的离差平方和,是需要解释的因变量的变异总量。
残差平方和(sum of squares error):因变量观察值与对应的回归模型预测值的离差平方和。是观察值落在回归线(面)之外而引起的,是模型中各自变量对因变量线性影响之外的其他因素对因变量总平方和的影响。
回归平方和(sum of squares regression):通过回归模型计算得到的因变量预测值与因变量观察值的均值的离差平方和。这是由自变量变化引起的,是回归模型所解释的部分。
均方(mean square):离差平方和除以相应的自由度即可得到均方。在回归分析中,研究者感兴趣的是回归均方(mean square regression,简写为MSR)和均方误(mean square error,简写为MSE)。
判定系数(coefficient of determination):回归平方和占总平方和的比例,记为R2。通常把它理解为回归方程解释掉的平方和占其总平方和的比例。判定系数被用来作为对方程拟合优度进行测量的指标,取值在[0,1]之间,值越大表明回归方程的解释能力越强。
判定系数增量(increamental R2):在原有回归模型基础上,通过加入新的自变量所带来的判定系数的增加量。
嵌套模型(nested models):如果一个模型(模型一)中的自变量为另一个模型(模型二)中自变量的子集或子集的线性组合,我们就称这两个模型是嵌套模型。模型一称为限制性模型(restricted model),模型二称为非限制性模型(unrestricted model)。限制性模型嵌套于非限制性模型中。
虚拟编码(dummy coding):依据名义变量各类别对其进行重新编码从而令其能够作为自变量纳入回归方程的编码方式。对于一个包含J个类别的名义变量,理论上可以得到J个取值为0或1的虚拟变量,但在回归分析中,通常只建构J-1个虚拟变量”。每一虚拟变量对应着原名义变量的一个类别,如果属于该类别则虚拟变量取值为1,否则取值为0。
虚拟变量(dummy variable):也称作指示变量(indicator),取值为0或1的变量,故也被称作0-1变量。
二分变量(dichotomous variable):即只有两种可能取值的变量,如性别。
参照组(reference group):被排除出回归模型的那个虚拟变量所对应的类别,亦即所有虚拟变量取值全部为零的类别。
交互项(interaction term):在操作上,交互项就是两个或多个(一般不多于三个)自变量的乘积。在回归模型中引入交互项后,参与构造交互项的各自变量对因变量的作用依赖于交互项中其他自变量的取值。
交互效应(interaction effect):也称为调节效应或条件效应,指一个自变量对因变量的效应依赖于另一个自变量的取值。回归分析中通常设定相应的交互项来探究某个自变量的条件效应。
常规最小二乘法(ordinaryleast squares,OLS):线性回归中求解参数的常用方法。该方法的基本思路为:根据从总体中随机抽出的一个样本,在平面直角坐标系中找到一条直线,使得观测值和拟合值之间的距离最短,即两者之间残差的平方和最小。
线性(linearity):指自变量与因变量之间的关系为单调的一次函数关系,因变量取值随着自变量而变化的速率不随自变量取值的大小不同而存在差异。另外,线性也指回归分析中因变量为各回归系数的线性组合。
无偏性(unbiasedness):当样本统计量的期望值等于总体真值时,该统计量具有无偏性。无偏性是选择估计量的首要标准。
偏误(bias):统计估计中的估计值和真实值之间的差。
忽略变量偏误(omitted variable bias):回归模型设定中,由于忽略了某些本该纳入却未纳入的相关自变量,而该自变量又与模型中其他自变量存在相关,导致回归参数估计值存在一定的误差,则这一误差被称作忽略变量偏误。偏误的方向取决于被忽略变量对因变量效应的方向以及该自变量与已纳入模型中自变量之间关系的方向;而偏误的大小则直接取决于该忽略自变量对因变量的效应的大小以及与模型中其他自变量之间的相关关系的强弱,它们之间的相关性越强,则忽略变量偏误越大。
相关条件(correlation condition):判断回归模型中存在忽略变量偏误的条件之一,指的是被忽略的自变量与已纳入模型中的关键自变量之间相关。
有关条件(relevance condition):判断回归模型中存在忽略变量偏误的条件之一,指的是被忽略的自变量会影响因变量。
有效性(efficiency):对总体参数进行估计时,在所有可能得到的无偏估计量中,抽样分布方差最小的无偏估计量,就具有有效性,是选择估计量的另一个标准。
独立同分布假定(assumption ofindependent identical distributed errors):或称i.i.d.假定,假定一般线性模型中的随机误差项独立(彼此独立且独立于自变量)并且服从零均值等方差的同质性分布。
一致性(consistency):是选择估计量的第三个标准。一致性表达的是,估计量以概率方式收敛于参数真值。
最佳线性无偏估计(best linear unbiasedestimator):在满足所需假定条件的情况下,回归参数的常规最小二乘估计是所有无偏线性估计中方差最小的,因此,将其称作最佳线性无偏估计。
近似多重共线性(approximatemulticollinearity):当数据矩阵中一个或几个自变量列向量可以近似表示成其他自变量列向量的线性组合时,就会出现近似多重共线性问题。此时,模型仍是可以估计的,只是参数估计值的标准误过大,从而会造成统计检验和推论的不可靠。
完全多重共线性(perfectmulticollinearity):当数据矩阵中一个或几个自变量列向量可以表示成其他自变量列向量的线性组合时,自变量矩阵X’X会严格不可逆,就出现了完全多重共线性。当发生完全多重共线性时,直接导致模型参数无解,即出现模型识别问题。
复相关系数(multiple correlation coefficient):度量复相关程度的指标。它是一个变量同时与数个变量之间的相关程度,可利用单相关系数和偏相关系数求得。复相关系数越大,表明变量之间的线性相关程度越高。
容许度(tolerance):回归分析中反映自变量之间存在多重共线性程度的统计量之一。对每一个变量,定义容许度为1减去模型中其他自变量之间的复相关系数。显然,当容许度越小,越接近0时,多重共线性就越严重。当容许度严格等于0时,也就是复相关系数严格等于1时,就意味着完全多重共线性的存在。
方差膨胀因子(variance inflation factor):回归分析中反映自变量之间存在多重共线性程度的统计量之一,它等于容许度的倒数。对于某个自变量,其方差膨胀因子可定义为容许度的倒数。
文章来源统计课是纸老虎,文章版权归原作者所有。
-END- 分享一份Python可视化教程(基于py可视化利器seaborn):530张图形+8000行代码+详细代码注释+后续免费更新+学习交流群,教程部分内容, 例如,
👉可视化配色工具,colormap多达3174类,数万种颜色!
每类图表包含详细代码+详细代码注释,多达8000行代码,例如,
如何加入学习?
👇加入学习(收费、备注:169)
✅解锁获取6大权限:
8000+行代码(复制即可运行) 在线教程文档(清晰目录) 依赖数据(免费下载) 交流群 后续更新 定期抽最新机器学习、数据科学类书籍 点个 在看、赞 就是最大的支持