支持向量机（SVM）求解过程涉及的多个步骤和数学原理

职场 2024-12-07 23:59 浙江

一、SVM的基本思想

SVM的基本思想是在样本的向量空间中寻找一个超平面，使得两类样本被分割在平面的两端。这样的平面理论上有无穷多个，但SVM的目标是找到一个最优的超平面，即两侧距离超平面最近的样本点到超平面的距离被最大化的超平面。这个最优的超平面所对应的判别模型即为支持向量机。距离超平面最近的样本点被称为支持向量。

机器学习专栏推荐：机器学习专栏

深度学习专栏推荐：计算机视觉专栏

深度学习专栏推荐：深度学习

深度学习框架pytorch：pytorch

人工智能之数学基础专栏：人工智能之数学基础

二、线性可分情况下的SVM求解

问题转化：
对于线性可分的情况，SVM的求解可以转化为一个凸优化问题。具体来说，就是找到一个超平面（wx+b=0），使得两类样本点分别位于该平面的两侧，并且距离该平面最近的样本点到平面的距离最大化。
函数间隔和几何间隔：

函数间隔：对于给定的超平面和样本点，样本点到超平面的函数间隔定义为y(wx+b)。但是，函数间隔存在一个问题，即当w和b成倍增加时，函数值也会成倍增加，而超平面并没有改变。因此，需要引入几何间隔。
几何间隔：几何间隔是样本点到超平面的真正距离。它通过对w进行约束（通常假设w的模为1），然后计算样本点到超平面的垂直距离来得到。

优化问题：

SVM的目标是最大化几何间隔，这可以转化为一个优化问题。具体来说，就是最小化w的模的平方（即||w||^2/2），同时满足所有样本点到超平面的函数间隔大于等于1的约束条件。这个优化问题可以表示为：

拉格朗日乘子法和对偶问题：
为了求解上述优化问题，可以使用拉格朗日乘子法将其转化为一个无约束的优化问题。具体来说，就是引入拉格朗日乘子α_i（i=1,2,...,n），然后构造拉格朗日函数：

接着，对拉格朗日函数分别求w和b的偏导数，并令其等于0，可以得到w和b的表达式（这些表达式中包含了α_i）。然后，将w和b的表达式代入拉格朗日函数，得到一个新的函数（即拉格朗日对偶函数），该函数只包含α_i作为变量。最后，求解这个新的函数的最大值（即对偶问题的解），就可以得到原始优化问题的解。

KKT条件和支持向量：
在求解对偶问题的过程中，需要满足KKT条件（Karush-Kuhn-Tucker条件）。这些条件包括：
其中，第三个条件表明，只有当样本点位于间隔边界上（即y_i(wx_i+b)=1）时，对应的α_i才可能不为0。这些位于间隔边界上的样本点就是支持向量。

α_i≥0
y_i(wx_i+b)-1≥0
α_i(y_i(wx_i+b)-1)=0

求解α_i：

通过对偶问题，可以求解出α_i的值。然后，利用α_i和样本点的特征向量x_i，可以求解出w和b的值（通过w的表达式和任意一个支持向量）。

决策函数：

最后，可以得到SVM的决策函数：f(x)=sign(wx+b)。对于新的样本点x，将其代入决策函数，就可以得到其所属的类别。

三、线性不可分情况下的SVM求解

对于线性不可分的情况，SVM通过引入核函数将样本点映射到高维空间，使得在高维空间中样本点变得线性可分。然后，在高维空间中应用线性可分情况下的SVM求解方法。

核函数：
核函数的作用是将原始输入空间中的样本点映射到新的特征空间（通常是高维空间）。常用的核函数包括线性核、多项式核、径向基函数（RBF）核（也称为高斯核）等。选择合适的核函数对于SVM的性能至关重要。
映射后的优化问题：
在引入核函数后，原始的优化问题中的x_i和x_j（表示两个样本点的特征向量）需要被替换为φ(x_i)和φ(x_j)（表示映射后的特征向量）。然后，在新的特征空间中应用线性可分情况下的SVM求解方法。
软间隔和松弛变量：
对于线性不可分的情况，通常允许某些样本点被错误分类（即位于间隔边界以内或另一侧）。这可以通过引入软间隔和松弛变量来实现。具体来说，就是在优化问题中添加一个惩罚项（即松弛变量的平方和乘以一个正数C），以允许一定的分类错误。同时，约束条件也相应地进行调整（即允许函数间隔小于1）。
求解过程：
软间隔情况下的SVM求解过程与线性可分情况类似，但需要对拉格朗日函数、KKT条件等进行相应的调整。最终，可以求解出α_i、w和b的值，并得到决策函数。

每天五分钟玩转人工智能

一个人没有梦想和神经网络有什么区别？

最新文章

机器学习与深度学习的思维模式：异同点深度剖析

每天五分钟深度学习pytoch：卷积神经网络比全连接神经网络强在哪

为什么优化模型的损失函数就可以让神经网络的效果变好？

每天五分钟计算机视觉:神经网络风格迁移的代价函数

神经网络为何如此强大？

每天五分钟深度学习：神经网络的前向传播的计算（多样本）

支持向量机（SVM）求解过程涉及的多个步骤和数学原理

每天五分钟机器学习：函数间隔和几何间隔

卷积神经网络比于全连接神经网络强在哪？

每天五分钟深度学习pytorch：可视化神经网络训练损失函数图像

线性变换和非线性变化的区别，以及在机器学习领域中的应用

人工智能之数学基础：如何将线性变换转换为矩阵？

神经网络和支持向量机的基础——感知机模型

每天五分钟机器学习：平行和重合

损失函数与目标函数的区别和联系

简述机器学习和深度学习间的区别

每天五分钟深度学习PyTorch：搭建卷积神经网络完成手写字体识别

机器学习领域中的集成学习

机器学习模型的训练旅：从数据到智能

为什么神经网络必须要使用非线性激活函数？

每天五分钟深度学习：神经网络的前向传播的计算过程（单样本）

逻辑回归和softmax回归间的关系

每天五分钟深度学习框架pytorch：卷积神经网络的搭建

线性代数在人工智能领域中的实践

人工智能之数学基础：线性变换及其机器学习领域中的应用

人工智能之数学基础：线性变换的象空间和零空间

深度学习相比于深度学习算法的优势

PCA算法所体现的核心数学思维

在使用PCA算法进行数据压缩降维时，如何确定最佳维度？

每天五分钟机器学习：支持向量机数学基础之超平面分离定理

如何理解神经网络？

每天五分钟深度学习：神经网络模型的直观理解

为什么归一化对C4.5决策树没有效果

数学不好的人如何学习人工智能？

每天五分钟深度学习框架pytorch：神经网络模型的参数初始化操作

推荐一本人人都能看懂的人工智能数学基础书

学习人工智能需要掌握哪些技能？

正交变换及其在人工智能领域的应用

零基础如何学习人工智能？

人工智能之数学基础：正交矩阵

线性空间中的基与坐标系：深入理解与应用

每天分钟深度学习框架pytorch：批归一化全连接网络完成手写字体识别

BERT模型究竟解决了什么问题？

集成学习：三个臭皮匠抵一个诸葛亮

深度学习PyTorch极简入门：带有激活层的全连接神经网络识别数字

从数学角度理解支持向量机为什么被称为大间距分类器？

每天五分钟机器学习：支持向量机算法数学基础之核函数

多角度提升机器学习模型的泛化能力

矩阵：本质、作用及其与神经网络的关系

神经网络是如何找到最佳参数模型的？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉