不会求解Cost Function？如何进行非线性优化？试试『高斯牛顿解法』！

学术 2023-12-30 12:16 中国香港

当一个优化问题其中的Cost function 或是约束条件包含非线性方程式时，使得优化问题的解决方案变得相当棘手，这种问题称为非线性优化Nonlinear Optimization问题.

Nonlinear Optimization 问题简介

如果我们想要最小化函数，通常使用微积分中的方法：找到一组，使得对于所有，函数对的偏导数都等于零，即。在优化问题中，一般假设函数是平滑且可微的，因此可以通过泰勒展开式来解决优化问题：

这里的表示梯度（gradient），而则表示 Hessian 矩阵：

梯度下降法

梯度下降法的本质是沿着梯度最陡的方向进行移动，以达到函数的极小值。梯度下降的公式为：

这里是梯度，是每次移动的步长，也称为学习率。

牛顿法

如前所述，希望找到一组，使得。牛顿法的思想是在当前点和当前梯度的基础上，找到，使得。根据泰勒展开式，可以得到以下近似关系：

这里的是 Hessian 矩阵，可以看作是梯度函数的导数。根据上式，可以推导出：

因此，牛顿法利用以下式子不断更新的值：

动画理解：

供读者参考：

蓝色曲线：要最小化的实际函数

红色曲线：二阶泰勒级数近似。

黄点：泰勒级数展开点

绿点：泰勒级数的最小值

紫点：全局最小值

可以看到泰勒级数正在将其展开点重新调整到其自身的最小值处。如果我们继续这样做，那么经过一定次数的迭代后，近似曲线会趋向于实际最小值。

梯度下降法与牛顿法的比较

牛顿法收敛速度较快。梯度下降法将乘以，而牛顿法将乘以。显然两者都更新的方向不同。梯度下降法是沿着更新的值，而牛顿法是沿着的方向更新。从直觉上来说，梯度下降法是一阶收敛，仅考虑当前位置，并寻找最陡的方向迈出一步；而牛顿法是二阶收敛，同时考虑迈出一步后梯度是否会变得更大。因此牛顿法的收敛速度通常比梯度下降法更快。

高斯牛顿法

如果牛顿法中要计算 Hessian matrix 的时间与空间的复杂度太大，而高斯牛顿法的实质就是去近似 Hessian matrix 进而降低梯度。高斯牛顿法的前提是这个最佳化问题必须为least square problem ,也就是以下式子：

以上的问题当然可以用梯度下降法或牛顿法来解，但是如果用高斯牛顿法的话会更有效率。

基本描述

给定个函数（通常称为残差）关于个变量满足高斯-牛顿算法迭代地找到使得平方和最小化的的取值

从初始猜测开始，该方法通过迭代进行如下计算

符号表示矩阵的转置。其中，如果和是列向量，则雅可比矩阵的元素为

在每次迭代中，可以通过重新排列前述方程来确定更新的值：

通过将 , , 和代入上述表达式，它可以转化为形式为的常规矩阵方程。

特别的，如果，则迭代简化为

在数据拟合中，目标是找到参数，使得给定的模型函数最佳拟合一些数据点，其中函数是残差：

然后，高斯-牛顿算法可以用函数的雅克比矩阵来表示：

需要注意是的左伪逆。

具体解法

通常情况下，否则矩阵不可逆，无法解出正规方程。

高斯-牛顿算法可以通过对向量函数进行线性近似得到。使用泰勒定理，可以在每次迭代时写出：

其中。找到使右边平方和最小的，即

问题转化为是一个线性最小二乘问题，可以显式求解，方法是给出正规方程。

正规方程是个未知增量的联立线性方程，可以通过乔列斯基分解（Cholesky decomposition）或更好地通过的QR分解来一步解决。对于大型系统，迭代方法，例如共轭梯度法可能更有效。如果的列之间存在线性依赖关系，迭代将失败，因为成为奇异的。

PS：当是复数，还可以使用共轭形式：。

具体案例

使用高斯-牛顿算法，通过最小化数据与模型预测之间的误差平方和来拟合模型。

在一项关于底物浓度和酶介导反应的反应速率之间关系的生物学实验中，通过测试得到了以下表中的数据。

	1	2	3	4	5	6	7
	0.038	0.194	0.425	0.626	1.253	2.500	3.740
Rate	0.050	0.127	0.094	0.212	0.272	0.266	0.331

希望找到最符合最小二乘意义下数据的曲线（模型函数）形式如下：

其中和是要确定的参数。

用和分别表示和rate的值，。令，，我们的目标是找到和，使得残差平方和

最小化。

残差向量的雅可比矩阵关于未知数是一个矩阵，其第行计算为

从和的初步估计开始，进行了高斯-牛顿算法的五次迭代后，得到了最优值和。残差平方和从初始值1.445减少到第五次迭代后的0.00784。右侧图中的绘图显示了由模型确定的最优参数的曲线与观测数据。

收敛性质

高斯-牛顿迭代在以下四个条件下保证收敛至局部最小点：函数在包含的开凸集上两次连续可微，雅可比矩阵具有满列秩，初始迭代点靠近，局部最小值很小。如果，则收敛是二次的。

可以证明增量Δ是的下降方向，并且如果算法收敛，则极限是的稳定点。然而，对于较大的最小值，收敛不被保证，甚至不能保证局部收敛，就像牛顿法那样，或者不满足通常的Wolfe条件。

高斯-牛顿算法的收敛速度可以达到二次。如果初始猜测远离最小值，或者矩阵的条件不良，则该算法可能收敛缓慢或根本不收敛。例如，考虑具有个方程和个变量的问题，如下：

最优解是。（实际上，对于，最优解是，因为，但）。如果，那么问题实际上是线性的，并且该方法可以在一次迭代中找到最优解。如果，那么该方法会线性收敛，误差在每次迭代中渐近地减小。然而，如果，那么该方法甚至不会局部收敛。

求解超定方程组

高斯-牛顿迭代

是解形式为的超定方程系统的有效方法，其中

且，这里是雅可比矩阵的Moore-Penrose逆（也称为伪逆）。它可以被视为牛顿法的扩展，在孤立的正则解处也有相同的局部二次收敛。

如果解决方案不存在但初始迭代接近于点，在该点上平方和达到一个小的局部最小值，那么高斯-牛顿迭代会线性收敛至。点通常被称为过度确定系统的最小二乘解。

从牛顿法推导得到高斯牛顿法

接下来，高斯-牛顿算法将从函数优化的牛顿法中通过一种逼近被推导。因此，在某些正则条件下，高斯-牛顿算法的收敛速度可以是二次的。一般来说（在较弱的条件下），收敛速度是线性的。

用于最小化参数的牛顿法的递推关系是

其中g表示S的梯度向量，H表示S的Hessian矩阵。

由于，梯度由以下给出

Hessian的元素是通过对梯度元素与的微分来计算的：

高斯-牛顿法是通过忽略二阶导数项（这个表达式中的第二项）得到的。也就是说，Hessian被近似为

其中是Jacobian矩阵Jr的元素。请注意，当在精确拟合附近评估精确Hessian时，我们有接近零的，因此第二项也变得接近零，从而证明了这个近似。梯度和近似Hessian可以通过矩阵表示为

以下是英文学术论文中的一节，将其翻译成中文:

这些表达式被代入上述递推关系中以获得操作方程

高斯-牛顿法的收敛并非在所有情况下都能得到保证。近似式

需要满足两种情况才能忽略二阶导数项，从而预期收敛：

函数值在最小值周围的幅度较小。
函数仅“轻微”非线性，因此幅度相对较小。

改进高斯-牛顿法

使用高斯-牛顿法时，残差平方和S可能不会在每次迭代中减小。然而，由于Δ是一种下降方向，除非是一个稳定点，否则成立对于所有足够小的。因此，如果发散，解决方案之一是在更新公式中采用增量向量Δ的分数：

换句话说，增量向量太长，但仍指向“下坡”，所以沿部分路程前进将减小目标函数S。通过使用线性搜索算法可以找到的最佳值，即通过在区间中找到最小化S的值来确定的大小，通常使用直接搜索方法或Armijo线搜索等回溯线搜索。通常，应被选择为满足Wolfe条件或Goldstein条件的值。

在增量向量的方向使得最佳分数α接近于零的情况下，处理发散的另一种方法是使用Levenberg-Marquardt算法，即信赖域方法。正规方程式以一种使得增量向量朝向最陡降方向旋转的方式进行修改，

其中D是正对角矩阵。

请注意，当D是单位矩阵I且时，，因此Δ的方向逼近于负梯度的方向。

所谓的Marquardt参数也可以通过线性搜索来优化，但这种方法效率低，因为每次改变时都必须重新计算移位向量。更高效的策略是：当发散发生时，增加Marquardt参数，直到S减小为止。然后保留从一个迭代到下一个的值，如果可能的话，逐渐减小，直到达到截断值为止，然后可以将Marquardt参数设为零；这时S的最小化就变成了标准的Gauss–Newton最小化。

应用于大规模优化

对于大规模优化，Gauss–Newton方法有其应用前景，因为通常（尽管并非总是如此），矩阵比近似Hessian 更为稀疏。在这种情况下，步长计算本身通常需要用适用于大规模稀疏问题的近似迭代方法来完成，例如共轭梯度法。

为了使这种方法有效，至少需要一种高效的方法来计算产品

对于某个向量，通过稀疏矩阵存储，通常可以以压缩格式（例如，无零条目）存储的行，使得由于转置而直接计算上述产品复杂。然而，如果将定义为矩阵的第i行，则有以下简单关系：

因此，每一行都会相加并独立地对产品做出贡献。除了保持实际的稀疏存储结构外，这个表达式也很适合并行计算。注意，每一行都是相应残差的梯度；考虑到这一点，上面的公式强调了残差独立地对问题产生影响的事实。

MATLAB实现

function beta = gaussnewton(r, J, beta0, maxiter, tol)
    beta = beta0;
    for i = 1:maxiter
        Jbeta = J(beta);
        delta = -pinv(Jbeta' * Jbeta) * Jbeta' * r(beta);
        beta = beta + delta;
        if norm(delta) < tol
            break;
        end
    end
end
function beta = gaussnewton(r, beta0, maxiter, tol)
    beta = beta0;
    for i = 1:maxiter
        [rbeta, Jbeta] = jacobian(r(beta));
        delta = -pinv(Jbeta' * Jbeta) * Jbeta' * rbeta;
        beta = beta + delta;
        if norm(delta) < tol
            break;
        end
    end
end

部分图片来源于网络

控我所思VS制之以衡

专注于控制理论、控制工程、数学、运筹、算法等方面的经验积累与分享

最新文章

决策分析新武器：深度解析Dempster-Shafer(DST)证据理论

DS证据理论的Python实现源代码

基于非线性增强比例导引的导弹-目标交战仿真软件（含MATLAB源码）

太震撼！美国民兵Ⅲ型核导弹制导系统和计算机内部欣赏

控制系统的校正方法(3)：案例分析(附资源)

“筷子夹火箭”首次成功！SpaceX星舰第五次试飞！

关于在科研活动中规范使用人工智能技术的诚信提醒

控制系统的校正方法(2)：补偿方法

控制系统的校正方法系列(1)：PI控制与PID控制

滑模观测器

《线性代数的艺术》：仅12页涵盖线性代数全部重要要点，全文分享，值得收藏！

重磅，2023年度国家科学技术奖励名单揭晓（全名单）

《天际回响：中继卫星轨道确定》（含美国中继卫星系统(TDRSS)系统仿真代码）

嫦娥五号月球轨道交会导引策略设计

控制系统的“脆弱”与“坚韧”:灵敏度的双刃剑

限时删！太牛了！最强大模型：ChatGPT-4，强烈建议大家学一学…

浅析最大似然估计：用数据说话

火箭全程模拟软件（含源码）

我国组建军事航天部队：安全进出、开放利用、危机管控、综合治理、和平利用

预设性能控制——性能函数

预设性能控制（含视觉仿真代码）

稳定性与状态矩阵特征值

彪马PUMA优化器（含MATLAB代码）

Sora物理悖谬的几何解释

小白必看：控制系统的基本分析框架（视频讲解）

红包封面奉上，祝愿大家龙年龙行龘龘前程朤朤生活䲜䲜！

遗传算法详解（含代码实现）

一张数学地图带你尽览数学分支

从贝叶斯的角度理解卡尔曼滤波器

不会求解Cost Function？如何进行非线性优化？试试『高斯牛顿解法』！

泛函术语辨析：欧几里得空间、希尔伯特空间、巴纳赫空间、赋值范数空间、内积空间

我们如何快速用上官方Gemini Pro？3分钟帮你搞定！

概率与统计基础知识简明速查手册，建议收藏！

[视频]矩阵谱分解、奇异值分解的可视化理解

2023年工程院、科学院院士增选当选院士名单公布！祝贺！

万物皆可“贝叶斯”——高斯分布的贝叶斯推断

中心极限定理的理解

万物皆可“贝叶斯”——Bayes' Theorem-贝叶斯定理

高斯过程回归（Gaussian Process Regression）——具体理解

高斯过程回归（Gaussian Process Regression）——数学基础

四旋翼无人机的物理模型及控制方法

粒子群算法的快速理解(含MATLAB实现)

对Lipschitz连续的理解

[分享]傅里叶级数,傅里叶变换,离散时间傅里叶变换,离散傅里叶变换,快速傅里叶变换,拉普拉斯变,Z变换之间的关系

论文辅导 | 科研新手，如何搞定第一篇SCI/SSCI论文？

[工具分享]final2x:再模糊的图片放到今天也能变成4K(含资源、安装与使用教程)

583位/655位，中国科学院/中国工程院院士有效候选人名单公布！

指导“深度学习+控制理论”做到1+1>2的方法论

一文读懂策略梯度算法：REINFORCE、Actor-Critic、A2C

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉