贝叶斯优化

文摘   2024-12-20 18:44   甘肃  

贝叶斯优化是一种用于优化目标函数的全局优化方法,其数学理论依赖于贝叶斯推断、高斯过程建模和采集函数的定义与优化.本文主要讨论贝叶斯优化的理论框架.

图1 - 理论框架

贝叶斯优化的目标是优化一个黑箱函数 ,即:

其含义是:

  • 找到使得 最小化的 值;
  • 表示可能的 值的搜索空间(定义域);
  • 表示目标函数的最小值,而 表示达到这个最小值时对应的参数值.

补充一点 是 argument 的缩写,在数学中通常表示函数的输入.用在 中时,它专门用于指示哪个输入(自变量)使得目标函数 取得最优值(最小值或最大值).

另外,由于每次评估 都需要耗费大量时间或资源,因此我们只能进行有限次评估,而无法无限制地尝试所有可能的输入 .

通过贝叶斯推断,将 的所有已知信息总结为后验分布;基于后验分布,利用采集函数选择下一个采样点 ,以最小化目标函数.

注意了,目标函数 是“黑箱”的,无法直接解析,但我们可以通过一组有限的采样点 获取其离散信息.那么基于已有的采样数据,预测目标函数 在某些新点 的值及其不确定性。

而实际上,通过贝叶斯推断,目标函数的后验分布可以提供:预测均值(当前对目标函数值的最佳估计)、预测不确定性(目标函数值的置信范围).

贝叶斯推断的核心公式是:

构建目标函数 的后验分布,其关键要素是:

先验分布 :在没有观察到数据之前,我们对 的假设.高斯过程通常假设目标函数 满足 ,即高斯分布.

似然 :描述数据(采样点)如何从目标函数中生成,通常假设数据带有一定的噪声.

贝叶斯公式结合了先验分布和似然信息,得出目标函数的后验分布:

下面讨论高斯建模过程

高斯过程(GP)是贝叶斯优化中常用的目标函数代理模型.GP 是一个分布的集合,它将输入 映射到目标函数 ,假设:

  1. 任意有限点集的目标函数值服从多元高斯分布;
  2. GP 可以估计目标函数的均值和不确定性(方差).

通过其均值函数 和协方差函数(核函数) 定义:

其中:

  • :预测的均值函数,表示函数的中心趋势;
  • :协方差函数,描述不同输入点之间的相关性。

常用的核函数有:

1.RBF 核(又称高斯核)定义为:

其中:

  • 之间的欧几里得距离;
  • :核尺度(length scale),控制核函数随距离变化的快慢。

我们对 的变量(如 )计算导数:

展开后:

这个导数是连续的。

对于高阶导数:

经过展开, 的二阶导数也连续。

此时通过递归计算,可证明 的任意高阶导数均连续,这说明 无穷可微的.


时,RBF 核的主要项为 ,当 增大时:

特别地,对于任意固定的 ,存在一个 的界限 ,使得当 时,.

这表明 RBF 核值随距离的平方指数衰减,对远离 的点贡献趋近于零.


尺度参数 决定了 RBF 核的函数平滑性及相关性范围,我们从以下两方面分析:

1.当 增大时,RBF 核的衰减变得更缓慢,导致 的值在更大的距离范围内保持较高,因此,生成的目标函数表现得更加平滑。

2.当 减小时,RBF 核的衰减加快,导致函数值对局部变化更敏感,生成的目标函数变化更快.

取一维情况,,核函数为:

求二阶导数:

展开后:

  • 增大时, 减小,导数值整体变小,表示函数变化更缓慢.
  • 减小时,导数值变大,表示函数变化更剧烈.

一个核函数 是正定的,如果对于任意有限点集 ,核矩阵 是半正定矩阵(正定矩阵的放宽条件).

RBF 核是径向基函数,其正定性可以通过 Schoenberg 的定理证明.

对于任意点集 ,RBF 核矩阵的 元素为:

对任意权重向量 ,计算二次型:

通过展开:

由于 是正定函数,且平方和非负,.

因此,RBF 核生成的核矩阵 正定的,从而满足高斯过程的要求.

我们这里用了比较长的篇幅来解释这块,主要说明以下几点:

  • RBF 核生成的函数是无穷可微的,适合光滑函数建模;
  • RBF 核值对远离点快速衰减,表明其对局部相关性的建模能力;
  • 控制核函数的平滑程度,调整生成函数的变化速度;
  • 正定核,确保高斯过程的理论基础.

2.Matern 核的定义:

其中:

  • :伽马函数;
  • :修正贝塞尔函数;
  • :平滑参数,决定核函数生成的目标函数的光滑性;
  • :尺度参数,控制函数变化的快慢。

通过参数 提供了从不光滑到光滑函数的一种建模灵活性.

为什么呢,注意:

该核的光滑性由参数 控制, 当 时,Matern 核简化为绝对指数核:

对应的目标函数是连续但不可导的.

时,函数逐渐变得更光滑:

  • :目标函数是一次可导的;
  • :目标函数是两次可导的;
  • :Matern 核趋于 RBF 核,生成函数是无穷可微的.

修正贝塞尔函数的定义为:

其中 是第一类修正贝塞尔函数。

对于任意 是连续可导的,且随 变化逐渐衰减.

核的导数阶数与参数 有直接关系,当 为非负整数)时,Matern 核的目标函数是 次连续可导的.

核函数的导数由以下公式近似:

其中 表示贝塞尔函数的阶数降低 1。这表明 决定了导数的最高阶次.

时,核中的修正贝塞尔函数趋近于高斯分布核,函数的无限可微性逐渐显现.

表现为:


另外,核中的贝塞尔函数 时具有指数衰减性质:

这里 .

这意味着 Matern 核值在输入点之间的距离较大时迅速趋近于零

不难发现:

  • 较大时:核函数的相关性扩展到更远的距离,局部性减弱。

  • 较小时:核函数的值更快衰减,局部性增强.

  • 较大的 使得函数变化缓慢,相关性范围更广;

  • 较小的 使得函数变化迅速,相关性范围更窄.

对于固定的 决定了衰减的速度. 越大,衰减越慢; 越小,衰减越快.

考虑一维输入:

时,,核函数值趋近于 1;当 时,,核函数值趋近于 0.这表明 决定了核函数的影响范围.


核函数 是正定的,当且仅当对于任意点集 和任意权重向量 ,以下关系成立:

Matern 核径向基核的一种扩展,同样可以通过 Schoenberg 定理验证其正定性,因为修正贝塞尔函数 满足正定核的构造条件.

后验分布:

假设已知 个采样点的数据集 ,目标是预测新点 的目标函数分布.

的联合分布为多元高斯分布:

其中:

  • :已知采样点的协方差矩阵;
  • :已知点与新点的协方差向量;
  • :新点的协方差。

条件分布(后验分布)为:

其中:

  • 均值
    表示当前模型对 的预测值;
  • 方差
    表示预测值的不确定性。

注意

  • 是对 的预测值;
  • 是预测值的置信区间,反映目标函数的不确定性。

采集函数

采集函数用于在后验分布的基础上引导下一步的采样点选择。下面我们对期望改进(EI)、置信上界(UCB)和概率改进(PI)三种采集函数进行讨论:

平衡两种优化策略:

1.利用:优先选择预测值较好的区域( 较小的位置),目标是快速找到局部最优点。

2.探索:优先选择预测不确定性较大的区域( 较大),目标是扩展搜索范围,避免陷入局部最优。

通过优化 ,采集函数在这两种策略之间找到平衡点,从而引导贝叶斯优化逐步逼近全局最优解.


期望改进(EI)

其中:

  • :当前的最优值(最小值);
  • :新点的目标函数值(服从后验分布 )。

定义标准化变量:

其中:

  • :预测均值;
  • :预测标准差。

采集函数的解析形式:

其中:

  • :标准正态分布的累积分布函数;
  • :标准正态分布的概率密度函数。

针对利用部分: 代表在目标函数值低于当前最优值的概率下,对差值的贡献。如果 明显小于 ,这部分值较大,EI 倾向于选择此点进行采样.

对于探索部分: 是由不确定性 贡献的改进部分.如果 较大,即目标函数在此区域的后验分布方差较大,EI 倾向于选择此点进行采样.

EI 同时考虑了目标函数值的最优性(利用)和不确定性(探索),是一种经典的采集函数.

有一点比较好的是,自然平衡探索和利用,无需额外超参数,但计算复杂度较高,因为需要计算正态分布的 ;对 的区域可能退化为简单的利用策略。


置信上界(UCB)

其中:

  • :控制探索与利用的权衡参数.

针对利用部分: 是目标函数的后验均值,直接反映对目标函数值的当前估计,较小的 值优先被选择.

对于探索部分: 用于控制探索性, 表示不确定性,较大的 值鼓励更多探索,较小的 值则倾向于利用.

UCB 通过超参数 在探索和利用之间明确权衡,较大的 会优先选择预测方差较大的区域,从而增加对未知区域的探索.

很显然,仅需调节超参数 ,因此算法实现比较简单;但超参数 的选择可能较敏感.


概率改进(PI)

其中:

  • :标准正态分布的累积分布函数;
  • :当前最优值。

PI 直接计算目标函数在新点 处改善当前最优值的概率,如果预测均值 小于 ,且预测标准差 较大,则改善的概率较高。

另外,PI 强调利用,因为主要考虑改进当前最优值的概率;如果 很小(即后验分布不确定性低),PI 值可能退化为对预测均值的简单依赖.

不难看出,很可能探索性不足,容易陷入局部最优;在 较小时退化为利用策略.


特性期望改进(EI)置信上界(UCB)概率改进(PI)
平衡方式同时动态考虑探索和利用通过参数 手动平衡更倾向于利用
复杂度中等
适用场景大多数场景可控探索和利用比例目标函数较平滑,探索需求低的场景
优点自然平衡探索与利用,鲁棒性强实现简单,可调节性好算法直观,容易理解
缺点计算复杂,可能退化为利用需要手动调节超参数,可能不够灵活探索性不足,易陷入局部最优

高斯过程的逼近能力

高斯过程 是目标函数的非参数模型,假设目标函数 的值服从多元高斯分布:

其中:

  • :目标函数的均值函数;
  • :核函数生成的协方差矩阵。

如果目标函数 是连续的,并且我们采用的核函数 是正定且足够光滑,那么高斯过程在理论上可以无限接近,特别地,当采样点数量 且分布覆盖整个定义域时,高斯过程的后验均值 会收敛于目标函数

例如,对于 RBF 核和 Matern 核,后验误差界具有以下形式:

其中:

  • :与目标函数特性相关的常数;
  • :核矩阵 的信息增益。

注意,使用 RBF 核时,高斯过程的误差收敛速度最优; Matern 核的误差收敛速度与其平滑参数 相关, 越大,收敛速度越快.

此外,通过后验方差 量化未采样区域的模型不确定性.这种泛化能力是贝叶斯优化能够有效探索整个定义域的基础.


序贯设计

贝叶斯优化通过序贯设计逐步选择采样点 ,以最小化目标函数 。其目标是随着迭代次数的增加,采样点能够逐步覆盖整个定义域,并集中在全局最优点 附近。其核心在于利用采集函数,通过结合目标函数的后验分布和不确定性估计,动态平衡探索和利用,从而在有限次采样中逼近最优解。

不同采集函数的收敛性表现各异。例如,期望改进(EI) 通过最大化目标函数值的期望改进,在目标函数 满足 Lipschitz 连续的假设下,能够以次优级别的代价 收敛到全局最优值。置信上界(UCB) 则通过参数 平衡探索和利用,适用于平滑目标函数,理论上也能够以次优速度收敛到全局最优点。相比之下,概率改进(PI) 更偏向利用策略,其目标是最大化目标函数改进的概率,但在探索性较低的情况下,收敛速度通常较慢.


目标函数的平滑性是贝叶斯优化收敛性的基础假设.常见假设包括:

Lipschitz 连续性:

  • 如果目标函数 满足 Lipschitz 条件:
    则采集函数能够以次优速度找到全局最优值.

信息增益的收敛性

信息增益量化了通过采样获得的目标函数信息。对于高斯过程,信息增益 满足:

其中 是输入空间的维度。信息增益的快速衰减表明,随着采样点数量增加,目标函数的不确定性逐渐减小.


在目标函数 满足 Lipschitz 连续性和核函数满足 Mercer 定理的条件下,贝叶斯优化的序贯设计能够保证:随着 ,最优点的误差收敛到零;信息增益 增加逐渐减小,且满足 .



麦当的生态学笔记
用于文献信息解读和分享,统计分析相关方法的传递。
 最新文章