ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。
1 回归模型的定义
回归分析(Regression)是研究一个变量关于另一个(些)变量依赖关系的一种统计分析方法,是一种预测性的建模技术。回归分析通过建立模型来预测因变量(被预测变量)与自变量(预测变量)之间的关系,从而预测因变量的值。回归分析有多种形式,包括线性回归、非线性回归、Logistic回归等。
因变量(Dependent Variable):需要预测或解释的目标变量。
自变量(Independent Variable):用来预测或解释因变量的变量。
线性回归(Linear Regression):建立自变量和因变量之间的线性关系。通常用线性方程 (如 )来表示这种关系。
非线性回归(Nonlinear Regression):建立自变量和因变量之间的非线性关系,通常采用非线性方程来拟合数据。
线性回归系数(Regression Coefficients):线性回归模型中,系数表示了自变量与因变量之间的关系强度和方向。斜率()表示关系的强度,截距( )表示当自变量为零时的因变量值。
残差(Residuals):观测值与线性回归模型的预测值之间的差异。回归模型的目标是使残差尽可能小,以获得最佳拟合。
拟合优度(Goodness of Fit):用于衡量回归模型对数据的拟合程度。常见的包括R-squared()和均方误差(MSE)。
其中,SSR是残差平方和,表示模型的预测值与实际观测值之间的差异的平方和;SST是总平方和,表示观测值与它们的均值之间的差异的平方和。
其中, 表示实际观测值, 表示模型的预测值。
过拟合(Overfit):样本内的拟合优度很高,但模型外的预测能力反而下降。
多重共线性(Multicollinearity):自变量之间存在高度相关性的情况,这可能会导致回归系数的不稳定性。
异方差性(Heteroscedasticity):残差的方差在不同自变量值下不相等的情况,可能会影响回归模型的准确性。
2 回归模型方法总结
2.1 最小二乘(Least Squares)
最小二乘法(Least Squares Method)最早被用于来调整椭圆轨道的参数,以使观测数据点与理论轨道之间的残差的平方和最小化,来证明开普勒三大定律,是现代回归分析和拟合曲线的基础。最小二乘法是一种数学和统计学中常用的优化技术,用于拟合模型参数以最小化观测数据与模型预测值之间的残差平方和,是用于拟合回归线最常用的方法。它的核心思想是通过调整模型参数,找到最优解,以使模型与观测数据的拟合误差最小化。
Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium[1]. Carl Friedrich Gauss, 1809.
在最小二乘法中,通常有一个包含一个或多个参数的模型,需要根据观测数据进行估计。这个模型可以用函数表示如下:
最小二乘法的目标是找到参数 ,使残差的平方和最小化,即最小化以下损失函数:
2.2 多项式回归(Polynomial)
多项式回归是线性回归的一种拓展,可以对非线性关系建模,通过引入多项式函数来拟合数据。如果回归方程自变量的指数大于1,则就是多项式方程。多项式回归适用于那些认为因变量与自变量之间存在非线性关系的情况,一个一元的n次多项式可表示为:
多项式回归不仅限于一元自变量。可以建立多元多项式回归模型,其中自变量可以是多维的。虽然可以拟合一个高次多项式并得到较好的拟合优度,但这可能会导致过拟合,所以需要观察关系图来查看拟合情况,保证拟合合理,形状和趋势是否有意义,既没有过拟合又没有欠拟合。
The application of the method of least squares to the interpolation of sequences[2]. J.D Gergonne. 1815.
2.3 高斯过程回归(Gaussian Process Regression)
高斯过程(Gaussian Process)是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的。高斯过程可以看作是对函数的一个分布假设,通过均值函数和协方差函数来描述函数的性质。在高斯过程中,每个点都是一个随机变量,并且由邻近点的值的协方差来联接。高斯分布密度函数如下所示:
高斯过程回归可以表示为:
其中, 表示均值函数; 表示协方差函数,也被称作核函数,是一个高斯过程的核心:
其中, 表示狄拉克函数,当 时, ,否则为0。
高斯过程回归(GPR)是一种非参数的回归方法,用于建立输入与输出之间的概率关系。它基于高斯过程,采用贝叶斯方法,旨在估计函数的均值和不确定性。在回归预测中,通常预测的只是一个单点的值,高斯过程回归可以理解为概率预测,在预测准确点的同时还可以预测上限和下限,给预测增添了更多可参考的价值。通常被用于低维和小样本的回归问题,但也有适用于大样本和高维情形的扩展算法。
GPR首先要选择合适的核函数来构建高斯过程,通过高斯过程的贝叶斯推断,可以计算输出的后验分布,包括均值和方差。通过最大似然估计、交叉验证或其他方法来调整参数,来获得最佳的拟合效果。
Extrapolation, Interpolation, and Smoothing of Stationary Time Series[3]. Norbert Wiener. MIT Press 1949.
2.4 逻辑回归(Logistic Regression)
逻辑回归虽然带有回归字样,但是本质属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。主要目标是通过建立一个数学模型来预测样本属于哪个类别,即将输入特征映射到一个介于0和1之间的概率范围内,用于分类决策。
逻辑回归的拟合函数是sigmond函数,其中 是关于 和参数 的函数, 是将特征向量与响应变量连接起来的连接函数:
通常如果函数计算的值大于0.5,则归为类别1,否则归为类别0。这个0.5的阈值可以根据需要进行调整。由于逻辑回归模型本质上是非线性,所以壁板采用最大似然估计(MLE),而不是最小二乘法。
The regression analysis of binary sequences[4]. D. R. Cox. Journal of the Royal Statistical Society, 1958.
2.5 逐步回归(Stepwise Regression)
逐步回归是回归分析中一种筛选变量的过程,我们可以使用逐步回归从一组候选变量中构建回归模型,让系统自动识别出有影响的变量。该方逐步将自变量输入模型,如果模型具统计学意义,将其纳入在回归模型中,同时移出不具有统计学意义的变量,最终得到一个自动拟合的回归模型。
其本质上还是线性回归,主要目的是使用最少的预测变量数来最大化预测能力。它也可以减少多重共线性的影响,提高模型的稳定性,这也是处理高维数据集的方法之一。
逐步回归主要包括两种方法:前向逐步回归和后向逐步回归。
前向逐步回归(Forward) :从一个不包含任何自变量的控模型开始,为每个可用的自变量执行简单线性回归,选择具有最高显著性的自变量(通常使用显著性水平如p<0.05),将所选的自变量添加到模型中。重复上述过程,直到没有其他自变量可以显著提高模型的性能或直到达到预定的停止准则(如AIC、BIC等)。
自变量一旦选入,则永远保存在模型中;不能反映自变量选进模型后的模型本身的变化情况。
后向逐步回归(Backward):从包括所有自变量的完整模型开始,为每个自变量执行多元回归,检查自变量的显著性,剔除具有最低显著性的自变量。重复上述过程,直到没有其他自变量可以显著提高模型的性能或直到达到预定的停止准则(如AIC、BIC等)。
自变量一旦剔除,则不再进入模型;开始把全部自变量引入模型,计算量过大。
Mathematical Methods for Digital Computers[5]. Herman F. Karreman. 1960.
2.6 岭回归(Ridge Regression)
岭回归最早由Hoerl和Kennard于1970年在论文《Ridge Regression: Biased Estimation for Nonorthogonal Problems》中提出,出发点是为了解决多重共线性,通过引入偏差来改善参数估计的稳定性。实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
岭回归通过修改最小二乘估计的目标函数,引入了一个额外的惩罚项L2——2-范数正则项,它保证了 值不会变的很大。较大的 值将导致更多的参数收缩(缩小到零),减少过度拟合的可能性。岭参数 不同,岭回归系数也会不同,用于控制惩罚力度。
上式可以转化为约束极值问题,最优解为函数等值线与约束空间的交集,正则项可以看作是约束空间。岭回归的约束空间是球形,可以用图像表示如下:
Ridge Regression: Biased Estimation for Nonorthogonal Problems[6]. Arthur E Hoerl, Robert W Kennard. Technometrics 1970.
2.7 套索回归(Lasso Regression)
在进行高维回归时,有时希望从大量特征变量中,筛选出真正对因变量有影响的少数变量。所以提出了Lasso,以获得系数模型。
Lasso(Least Absolute Shrinkage and Selection Operator)于1996年被提出,最早是为了解决特征选择问题,它可以自动选择对预测目标有贡献的自变量,从而降低了维度。类似于岭回归,在损失函数中引入了L1正则化项,将岭回归惩罚项中的2-范数改为1-范数,以鼓励模型参数的稀疏性(即让一些参数为零)。
Lasso 使用的惩罚函数是绝对值,而不是平方。这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。使用惩罚值越大,进一步估计会使得缩小值趋近于零,这将导致我们要从给定的n个变量中选择变量。在优化过程中,与岭回归的球形不同,Lasso约束空间是一个方形,这也就是二范会得到很多参数接近 0 的值,而一范会尽可能使非零参数最少。
对于Lasso和岭回归两种方法参数 的选择经常使用K折交叉验证。
从预测角度,如果真实模型确实更稀疏,则Lasso一般更优;如果并不稀疏,则岭回归效果更好。在实践中,一般并不知道是否稀疏,可以采用交叉验证进行选择。
从易解释性角度,Lasso更优,因为岭回归只是收缩回归系数,并不具备筛选功能。
Regression shrinkage and selection via the lasso: a retrospective[7]. Robert Tibshirani. Journal of the Royal Statistical Society, Series B, 1996.
2.8 弹性网回归 (ElasticNet Regression)
Lasso虽然有筛选变量的功能,但如果存在几个高度相关的变量,Lasso可能随意选择其中一个。Zou和Hastie等人在2005年将Lasso和岭回归结合,提出了弹性网(ElasticNet)估计量,在损失函数中同时包含L1和L2惩罚项。其先将有共线性的自变量分成一组,如果其中有一个自变量与因变量有强相关关系,那么就将这一组所有自变量都输入线性模型
转化之后可以得到正则项的约束如下图所示,其约束集介于Lasso和岭回归之间,所以同时具有筛选变量和收缩参数的功能。其同样可以通过交叉验证选择最优参数,预测能力与其他两种方法相比也毫不逊色。
Regularization and variable selection via the elastic net[8]. Hui Zou, Trevor Hastie. Journal of the Royal Statistical Society Series B, 2005.
2.9 组套索 (GroupLasso)
在Lasso回归中,是单独地看待每个特征(即假定特征不存在先验的分组),但有些使用场景下,变量本身就存在分组。GroupLasso是一种线性回归的正则化方法,类似于Lasso回归,但它对自变量进行分组,以鼓励模型在每个组内选择一组相关的自变量。这对于处理具有自然分组结构的数据集非常有用。
其实现过程是将所有变量分组,然后在目标函数中惩罚每一组的L2范数,这样达到的效果就是可以将一整组的系数同时消成零,即抹掉一整组的变量。Group Lasso的损失函数包括两个正则化项,一个是L2正则化项,另一个是L1正则化项,具体公式如下:
其中, 表示第 组中自变量数量, 表示总组数, 表示第 组中的自变量的系数向量。
下图从三维上为Lasso、GroupLasso和Ridge提供了几何图形。其中,, 在一个group内, 在另一个group内。
Model selection and estimation in regression with grouped variables[9]. Ming Yuan, Yi Lin. Journal of the Royal Statistical Society Series B, 2005.
2.10 径向基网络 (Radical Basis Function Network)
径向基函数(RBF)是多维空间插值的传统技术,取值仅仅依赖于离原点距离的实值函数,以网络的中心点为基准,根据输入样本到中心点的距离来计算激活值。不同中心点对应于网络中的不同隐含层神经元。通常使用高斯函数或其他径向对称函数。
1988年,Broomhead和Lowe根据生物神经元具有局部响应这一特点,将RBF引入神经网络设计中,产生了RBF神经网络。RBF神经网络(RNFN)是一种用于回归和分类任务的人工神经网络,是一种三层的前向网络。其基本思想是用RBF作为隐单元的“基”构成隐含层空间,隐含层对输入矢量进行变换,将低维的模式输入数据变换到高维空间内,使得在低维空间内的线性不可分问题在高维空间内线性可分。
Multivariable Functional In terpolation and Adaptive Networks[10]. D. S. B Roomhead, David Lowe. Complex Systems 1988.
图中的b为阈值,用于调整神经元的灵敏度。径向基神经网络的激活函数施以输入向量和权值向量之间的距离||dist||作为自变量的。径向基神经网络激活函数的一般表达式为:
RBFN通常由三层组成,包括输入层、隐含层和输出层。输入层接收特征向量,隐含层包含径向基函数,输出层用于回归输出由输入层、隐含层和输出层构成的一般径向基神经网路结构如下图所示:
RBFN的训练通常包括两个主要步骤。首先,在隐含层中选择合适数量和位置的径向基函数的中心点。然后,使用最小二乘法或其他回归方法,对网络的权重进行训练以拟合训练数据。在回归任务中具有较好的适应性和泛化能力,可以逼近复杂的非线性关系,并且对于输入空间的不同部分可以有不同的响应。
2.11 样条回归 (Splines Regression)
样条回归可以看做是一个逐段回归或分段回归,通过将数据分为几段,在每一段内分别拟合模型,每一段内可以拟合直线、二次项、三次项等,根据实际情况而定。样条曲线回归是使用多段平滑曲线对样本数据进行拟合,并保证这些曲线的接口处也是平滑的。在1989年《Flexible Regression Models with Cubic Splines》论文中,主要关注在回归分析中使用三次样条(cubic splines)来建立灵活的回归模型。
三次样条是一种用于光滑插值的函数,它在每个区间内使用三次多项式来逼近数据。这种光滑性使得三次样条适用于建模非线性关系。三次样条函数的确定涉及到选择样条的节点(knots),以及确定每个区间内的三次多项式系数。
节点(Knots):定义样条函数分段区间的位置。这些位置通常是在数据中选择的特定点,用于将数据分为不同的区间。
三次多项式(Cubic Polynomials):在每个相邻的节点之间,使用一个三次多项式来逼近数据。这个多项式通常具有以下形式:
光滑性条件:为了确保在相邻区间交界处的光滑连接,通常会施加一些光滑性条件,如连续的一阶导数和二阶导数。
三次样条回归模型可以表示为以下数学公式:
三次样条允许模型在不同区间内以不同的速率变化,因此可以适应各种非线性关系。但同时每个区间对应一组参数,模型的复杂性可能会随之增加。
Flexible regression models with cubic splines[11]. Sylvain Durrleman, Richard Simon. Statistics in Medicine 1989.
2.12 支持向量回归(Support Vector Regression)
支持向量回归(SVR)是一种用于回归分析的机器学习方法,它借鉴了支持向量机(SVM)的思想。
SVR回归是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。与一般回归不一样的是,支持向量回归会允许模型有一定的偏差,在偏差范围 之内的点模型不认为有问题,而偏差范围之外的点就会计入损失。所以对于支持向量回归来说,支持向量以内的点都会影响模型,而支持向量之外的点用于计算损失。
容忍度带宽:SVR使用一个上界和一个下界两个边缘带宽,以定义一个容忍度带宽。只有在这个容忍度带宽内的预测值才被视为满足要求。 核函数:SVR使用核函数来进行特征映射,将输入特征映射到高维空间,然后进行回归。 SVR模型中通过最大化间隔带的宽度和最小化损失来优化模型.
SVM 的目标是通过最大化间隔,找到一个分离超平面,使得绝大多数的样本点位于两个决策边界的外侧。SVR 同样是考虑最大化间隔,但是考虑的是决策边界内的点,使尽可能多的样本点位于间隔内,其最终的样本点仍然是一类。
Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods[12]. John C. Platt. ADVANCES IN LARGE MARGIN CLASSIFIERS 1999.
Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium: http://modelcube.cn/paper/detail/2727606
[2]The application of the method of least squares to the interpolation of sequences: http://modelcube.cn/paper/detail/2727608
[3]Extrapolation, Interpolation, and Smoothing of Stationary Time Series: http://modelcube.cn/paper/detail/2727614
[4]The regression analysis of binary sequences: http://modelcube.cn/paper/detail/2727613
[5]Mathematical Methods for Digital Computers: https://onlinelibrary.wiley.com/doi/abs/10.1002/nav.3800080210
[6]Ridge Regression: Biased Estimation for Nonorthogonal Problems: http://modelcube.cn/paper/detail/266
[7]Regression shrinkage and selection via the lasso: a retrospective: http://modelcube.cn/paper/detail/265
[8]Regularization and variable selection via the elastic net: http://modelcube.cn/paper/detail/267
[9]Model selection and estimation in regression with grouped variables: http://modelcube.cn/paper/detail/264
[10]Multivariable Functional In terpolation and Adaptive Networks: http://modelcube.cn/paper/detail/263
[11]Flexible regression models with cubic splines: http://modelcube.cn/paper/detail/2700636
[12]Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods: http://modelcube.cn/paper/detail/2727612
阅读原文,了解更多信息:ModelCube一站式人工智能科研平台
http://modelcube.cn/paper/reading-list-detail/40