高斯过程回归(Gaussian Process Regression)是一种非参数的回归方法,它基于高斯过程模型来建模数据的分布情况。在高斯过程回归中,假设数据点之间的关系服从多元高斯分布。
具体来说,考虑有一组输入变量X和对应的输出变量Y,我们希望通过这些已知数据点来建立一个模型,进而预测未知输入变量对应的输出变量。高斯过程回归的目标就是要估计在给定输入变量X的情况下输出变量Y的条件分布。
高斯过程回归的关键在于定义一个核函数(也称为协方差函数),用于度量不同输入变量之间的相似性。常用的核函数有线性核、多项式核、高斯核(也称为径向基函数核)等。通过核函数,可以计算任意两个输入变量之间的协方差。
在使用高斯过程回归进行预测时,通过计算输入变量的协方差矩阵以及已知数据点的输出变量的协方差矩阵,可以得到未知输入变量的输出变量的均值和方差。均值表示对应输入变量的预测输出,方差表示预测输出的不确定性。
高斯过程回归具有较好的灵活性和泛化能力,可以适应各种不同的数据分布和模式。此外,高斯过程回归还提供了对预测结果的不确定性估计,对于决策和控制问题具有重要意义。
在实际应用中,高斯过程回归可以用于机器学习、数据挖掘、优化等领域,特别适用于小样本、非线性、噪声较大的问题。
数学基础
多元高斯分布
一元高斯分布
一元高斯分布的概率密度函数为
其中表示平均值(对应于曲线的峰值),表示分布的标准偏差,它给出了分布的宽度的估计:越大,分布越宽。计算积分
发现曲线下的面积,代表分布的总概率,等于,因此它出现作为一个归一化常数。
一元标准高斯分布
设,即,将代入至(1)中进行换元,
其中,
此时定义随机变量服从一元标准高斯分布,记为,均值为,方差,概率密度函数(pdf)写为:
按照中心极限定理,当对大量独立同分布的随机变量进行相加和归一化时,这些变量的总和会趋向于服从高斯分布。换句话说,无论原始随机变量的分布是什么,当样本数量足够大时,它们的总和的分布会接近高斯分布。这是因为独立同分布随机变量的总和趋向于平均值,并且根据高斯分布的特性,随着样本数量增加,总和的分布将趋近于高斯分布。所以研究高斯分布在数学、金融学、物理学和工程学等领域有着重要的意义。
多元标准高斯分布
将上述一维的随机变量扩展至高维,即由单独实数变为向量,设随机向量为,其中随机向量内各元素服从一元标准高斯分布,同时假设各元素相互独立,计算该随机向量的联合概率密度函数:
由于随机向量内各随机变量服从标准高斯分布且相互独立,所以均值为零向量,协方差(多元分布中的“方差”)为单位阵,写为,
多元高斯分布
讨论更为一般的情况,去掉随机向量内各随机变量服从标准高斯分布且相互独立的假设。设随机向量为,其中随机向量内各元素服从一元高斯分布.
为了得到这个多元高斯分布的联合概率密度函数,可使用上述求得的多元标准高斯分布作为求解的桥梁,则问题转化为如何将多元高斯分布转化为多元标准高斯分布。依然采用上述线性变换的方法进行换元,即设并代入至(6)中,此处设。
此时联合概率密度函数的微分项为,类比一元高斯分布换元过程中,多元高斯分布换元中需要求雅各比矩阵的行列式以将微分项换为,,那么概率密度函数写为:
为后续计算方法,利用行列式性质对进行改写:
式(8)改写为:
设(换元),最终得到的式(8)为
注意到,此时的就是随机向量的协方差矩阵,证明如下
下图是以二元高斯分布为例的概率分布图:
多元高斯分布的条件概率
在概率论和统计估计中,我们经常遇到这样的问题:有多个高斯随机变量的联合分布,其中我们能够观察到其中一个或多个向量的具体实现。根据这个观察,我们想要知道剩余的向量的位置(即均值)和协方差。这被称为寻找未观察向量的“条件分布”。两个高斯随机变量的联合分布写为:
在给定的情况下,分布的位置为:
协方差为:
证明:
设和是联合高斯随机向量(请注意,为了简化符号表示,这里不在特地区分随机向量和其实现),的联合分布为:
设
通过上述变换,可得出:,这里需要求解,使得和不相关,即二者相互独立。通过确定以解出.
假设这里我们设定为条件,即认为是定值,不再是随机变量。由于和相互独立,依旧是随机变量,并未受到影响,因此
综上我们得出了条件概率的分布:
同理也可得出的分布。
下期将对高斯回归过程、核函数进行具体讲解,含MATLAB、C++、python实现,敬请关注本公众号!