机器学习十大算法的优缺点！

文摘 2023-09-18 16:28 湖南

点击上方蓝字

关注Abner

作者：小小数据分析

来源：知乎

1.逻辑回归

二项logistic回归模型是一种分类模型，由条件概率分布P(Y|X)表示，形式为参数化的logistic分布。这里随机变量X取值为实数，随机变量Y取值为1或0。可以通过有监督的方法来估计模型参数。

优点：

1. 计算代价不高，易于理解和实现；

2. 适用于需要得到有分类概率额场景；

3.对小数据噪声的鲁棒性好，不会收轻微的多重共线性的影响

缺点：

1. 容易欠拟合，分类精度可能不高；

2.数据有缺失和特征很大的时候表现不好。

2.支持向量机

对于两类线性可分学习任务，SVM找到一个间隔最大的超平面将两类样本分开，最大间隔能够保证该超平面具有最好的泛化能力。

优点：

1. 可以解决小样本情况下的ML问题；

2. 可以提高泛化性能

3. 可以解决高维问题，避免维数灾难

4. 可以解决非线性问题

5. 可以避免神经网络结构选择和局部极小点问题

参数C和g的选择对分类性能的影响：

C是惩罚系数，C越大，交叉validation高，容易过学习；

g是核函数的到达0的速率，g越小，函数下降快，交叉validation高，也容易造成过学习。

缺点：

1. 对缺失数据敏感；

2. 对非线性问题没有通用解决方案，必须谨慎选择kernel function来处理

SVM算法的主要优点有：

1) 解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。

2) 仅仅使用一部分支持向量来做超平面的决策，无需依赖全部数据。

3) 有大量的核函数可以使用，从而可以很灵活的来解决各种非线性的分类回归问题。

4)样本量不是海量数据的时候，分类准确率高，泛化能力强。

SVM算法的主要缺点有：

1) 如果特征维度远远大于样本数，则SVM表现一般。

2) SVM在样本量非常大，核函数映射维度非常高时，计算量过大，不太适合使用。（不适用于大数据集）

3）非线性问题的核函数的选择没有通用标准，难以选择一个合适的核函数。

4）SVM对缺失数据敏感。

1）一般推荐在做训练之前对数据进行归一化，当然测试集中的数据也需要归一化。

2）在特征数非常多的情况下，或者样本数远小于特征数的时候，使用线性核，效果已经很好，并且只需要选择惩罚系数C即可。

3）在选择核函数时，如果线性拟合不好，一般推荐使用默认的高斯核'rbf'。这时我们主要需要对惩罚系数C和核函数参数γ进行艰苦的调参，通过多轮的交叉验证选择合适的惩罚系数C和核函数参数γ。

4）理论上高斯核不会比线性核差，但是这个理论却建立在要花费更多的时间来调参上。所以实际上能用线性核解决问题我们尽量使用线性核。

3.决策树

一种启发式算法，核心是在决策树各个节点上应用信息增益等准则来选取特征，进而递归地构造决策树。

优点：

1. 计算复杂度不高，易于理解和解释，可以理解决策树所表达的意义；

2. 数据预处理阶段比较简单，且可以处理缺失数据；

3. 能够同时处理数据型和分类型属性，且可对有许多属性的数据集构造决策树；

4. 是一个白盒模型，给定一个观察模型，则根据所产生的决策树很容易推断出相应的逻辑表达式

5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。

6. 可以对有许多属性的数据集构造决策树。

缺点：

1. 对于那些各类别样本数目不一致的数据，信息增益的结果偏向于那些具有更多数值的属性；

2. 对噪声数据较为敏感；

3. 容易出现过拟合问题；

4. 忽略了数据集中属性之间的相关性；

5.处理缺失数据时的困难

决策树优点：

1）简单直观，生成的决策树很直观。

2）基本不需要预处理，不需要提前归一化，处理缺失值。

3）使用决策树预测的代价是O(log_2m)。m为样本数。

4）既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

5）可以处理多维度输出的分类问题。

6）相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释

7）可以交叉验证的剪枝来选择模型，从而提高泛化能力。

8）对于异常点的容错能力好，健壮性高。

决策树算法的缺点:

1）决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。

2）决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。

3）寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。

4）有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。

5）如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

4.KNN算法

一种惰性分类方法，从训练集中找出k个最接近测试对象的训练对象，再从这k个训练对象中找出居于主导的类别，将其赋给测试对象。

优点：

1. 简单有效，容易理解和实现；

2. 重新训练的代价较低（类别体系的变化和训练集的变化）；

3. 计算时间和空间线性于训练集的规模；

4. 错误率渐进收敛于贝叶斯错误率，可作为贝叶斯的近似；

5. 适合处理多模分类和多标签分类问题；

6. 对于类域的交叉或重叠较多的待分类样本集较为适合；

缺点：

1. 是懒散学习方法，比一些积极学习的算法要慢；

2. 计算量比较大，需对样本点进行剪辑；

3. 对于样本不平衡的数据集效果不佳，可采用加权投票法改进；

4. k值的选择对分类效果有很大影响，较小的话对噪声敏感，需估计最佳k值。

5.可解释性不强，计算量大。

KNN的主要优点有：

1）理论成熟，思想简单，既可以用来做分类也可以用来做回归

2）可用于非线性分类

3）训练时间复杂度比支持向量机之类的算法低，仅为O(n)

4）和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

5）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合

6）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

KNN的主要缺点有：

1）计算量大，尤其是特征数非常多的时候

2）样本不平衡的时候，对稀有类别的预测准确率低

3）KD树，球树之类的模型建立需要大量的内存

4）使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

5）相比决策树模型，KNN模型可解释性不强

5.朴素贝叶斯算法

贝叶斯分类器的分类原理是利用各个类别的先验概率，再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类别。

优点：

1. 数学基础坚实，分类效率稳定，容易解释；

2. 所需估计的参数很少，对缺失数据不太敏感；

3. 无需复杂的迭代求解框架，适用于规模巨大的数据集。

缺点：

1. 属性之间的独立性假设往往不成立（可考虑用聚类算法先将相关性较大的属性进行聚类）；

2. 需要知道先验概率，分类决策存在错误率。

朴素贝叶斯的主要优点有：

1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。

2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。

3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

朴素贝叶斯的主要缺点有：　　　

1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。

2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。

3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

4）对输入数据的表达形式很敏感。

6.随机森林算法

RF的主要优点有：

1）训练可以高度并行化，对于大数据时代的大样本训练速度有优势。最主要的优点。

2）由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。

3）在训练后，可以给出各个特征对于输出的重要性

4）由于采用了随机采样，训练出的模型的方差小，泛化能力强。

5）相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。

6）对部分特征缺失不敏感。

RF的主要缺点有：

1）在某些噪音比较大的样本集上，RF模型容易陷入过拟合。

2) 取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

7.AdaBoost算法

提升方法是从弱学习算法出发，反复学习，得到一系列的弱分类器（即基本分类器），然后组合这些弱分类器，构成一个强分类器，大多数的提升方法都是改变训练数据集的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。

优点：

1. 分类精度高；

2. 可以使用各种方法构建子分类器，Adaboost算法提供的是框架；

3. 简单，且不用做特征筛选；

4. 不会造成overfitting。

缺点：

1. 对分类错误的样本多次被分错而多次加权后，导致权重过大，影响分类器的选择，造成退化问题；（需改进权值更新方式）

2. 数据不平衡问题导致分类精度的急剧下降；

3. 算法训练耗时，拓展困难；

4. 存在过拟合，鲁棒性不强等问题。

Adaboost的主要优点有：

1）Adaboost作为分类器时，分类精度很高

2）在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活。

3）作为简单的二元分类器时，构造简单，结果可理解。

4）不容易发生过拟合

Adaboost的主要缺点有：

1）对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

8.GBDT

GBDT主要的优点有：

1) 可以灵活处理各种类型的数据，包括连续值和离散值。

2) 在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。

3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

GBDT的主要缺点有：

1) 由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

9 XGBoost算法

1.XGBoost与GBDT相比，其优势：

将树模型的复杂度加入到正则项中，来避免过拟合，因此泛化性能会优于GBDT。

损失函数用泰勒展开式展开，同时用到了一阶和二阶导数，可以加快优化速度。

GBDT只支持CART作为基学习器，XGBoost还支持线性分类器作为基学习器。

引进了特征子采样，像随机森林那样，既能避免过拟合，又能减少计算。

在寻找最优分割点时，考虑到传统的贪心算法效率较低，实现了一种近似贪心算法，用来加速和减少内存小号，除此之外，还考虑了稀疏数据集合缺失值的处理。

XGBoost支持并行处理。XGBoost的并行不是模型生成的并行，而是在特征上的并行，将特征排序后以block的形式存储在内存中，在后面迭代重复使用这个结构。这个block也使得并行化成为了可能，其次在节点分裂时，计算每个特征的增益，最终选择增益最大的那个特征去做分割，那么各个特征的增益计算就可以开多线程进行。

2.与lightGBM相比的不足点：

XGBoosting采用预排序，在迭代之前，对结点的特征做预排序，遍历选择最优分割点，数据量大时，贪心法耗时，LightGBM方法采用histogram算法，占用的内存低，数据分割的复杂度更低。

XGBoosting采用level-wise生成决策树，同时分裂同一层的叶子，从而进行多线程优化，不容易过拟合，但很多叶子节点的分裂增益较低，没必要进行跟进一步的分裂，这就带来了不必要的开销；LightGBM采用深度优化，leaf-wise生长策略，每次从当前叶子中选择增益最大的结点进行分裂，循环迭代，但会生长出更深的决策树，产生过拟合，因此引入了一个阈值进行限制，防止过拟合。

10.人工神经网络

优点：

1. 分类的准确度高，并行分布处理能力强，分布存储及学习能力强；

2. 对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。

缺点：

1. 神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；

2. 不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；

3. 学习时间过长,甚至可能达不到学习的目的。

— 完 —

如果喜欢本篇的内容记得点点再看，并把他转发到你的朋友圈。请永远不要停止学习，这是你武装自己对抗这个世界最有力的武器！

认真传播知识的科研人

关注公众号

获取人工智能技能+干货

http://mp.weixin.qq.com/s?__biz=MzkzMjQyMzAxMw==&mid=2247495209&idx=1&sn=082dbeb1d5f5dd42673b6839360a29ef

Abner说Ai

一个认真传播知识的技术人，日常分享人工智能学习方法+技术文章，希望大家喜欢。

这本关于Transformer模型的书写的太棒了！它无疑是迄今为止最全面、最系统地解析Transformer模型的著作！！

熬了5个通宵看完，酣畅淋漓！是我见过把人工智能数学基础知识讲得最好的！

这本书让我轻松掌握了深度学习的数学基础知识！！不是，写这么好干嘛？？？难怪7000多条评价都有99.9%的好评率！

读研读博都得自救！20多篇SCI斯坦福博士心得：科研入门中文教程，帮你避开要踩几年的坑，养成完善的科研习惯！

KAN卷积神经网络来了！下一轮热点来袭？

天天炸圈的ChatGPT到底是啥？又为什么有效？

这应该是每个学金融人工智能的人都应该看的综述！

省时易懂！弄懂机器学习深度学习概念=30个问答题！

图机器学习封神之作！包含丰富的代码示例、多种图形数据实施的机器学习技术和算法

比啃书看视频更容易入门的深度学习神级网站！超全面！

登上Nature！这次直接分割一切医学图像！基于sam的医学图像分割模型

降维打击！私有数据集是真好发论文啊！一个神级自动化数据标注工具！

深度学习发论文的蓝海领域！关于深度学习机器学习黑盒模型可解释性最强教程书！

50岁发表了400多篇论文的印度大佬写的机器学习数学书是真强啊！

代码水平低，但是要用pytorch做深度学习应该怎么学？

又一个好出论文的方向-深度生成建模！

这应该是关于深度学习神经网络、感知机最通俗的解释了

新手必看！把CNN卷积神经网络讲透！

扩散模型是什么？又是如何工作的？

5本霸榜机器学习深度学习的中文教程书！（附PDF）

2023深度学习初学者必读的8大热门综述推荐（附PDF）

蓄势17年！机器学习必读书籍PRML作者再出新书！直接把深度学习基础、架构、技术讲透！

用一本有代码注释的书解决你几乎所有机器学习问题！

终于让我找到了！嵌入式机器学习唯一一本标准教科书！由 TensorFlow 作者撰写

太..强了！用数据增强轻松解决数据单一、数据量不够、数据集太小的问题！

李飞飞11月新书《我看到的世界》人工智能黎明时的好奇心、探索和发现

【读研人必备】Papers with Code使用指南

真没想到pytorch这么容易学！

从机器学习的历史到未来、应用方法、场景

把数学代入菜市场会是什么样的？

代码有救啦！所有代码逐行解释，放养党起飞

机器学习十大算法的优缺点！

解决（几乎所有）机器学习问题！中文版！！！

图神经网络的底层数学原理总结

掌握这本SCI写作书上的技巧，让你论文无忧！

终于有人把矩阵说清楚了，万字长文解读线性代数中的矩阵

一本书！解决（几乎所有）机器学习问题

21个知识点让你快速上手机器学习

刚读硕士，怎么快速搭建一个神经网络？

神经网络背后的数学原理是什么？

一个好出论文的点：医学＋AI

中国博士把整个 CNN 可视化了！！！

清华最新192页 AIGC发展研究报告PDF

深度学习需要经常复现代码吗？（附带人工智能领域200篇可复现论文）

机器学习模型选择困难者福音！！！

研一没方向？导师放养？论文不知道怎么找？图像分割不可错过的35篇可复现论文【包含22-23年最新论文】

CodeGeeX：Tab 一下，代码生成！

什么是深度学习？从图灵测试谈到ChatGPT

SAM 史上首个图像分割基础模型，cv将迎来GPT-3时刻？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉