机器学习模型选择困难者福音！！！

文摘 2023-05-08 14:19 湖南

点击上方蓝字

关注Anber

作者：Steffen Anderson 来源：Deephub Imba

导读：机器学习可以用来解决广泛的问题。但是有很多不同的模型可以选择，要知道哪一个适合是一个非常麻烦的事情。

本文的总结将帮助你选择最合适需求的机器学习模型。

确定想要解决的问题

第一步是确定想要解决的问题：要解决的是一个回归、分类还是聚类问题?这可以缩小选择范围，并决定选择哪种类型的模型。

你想解决什么类型的问题?

分类问题:逻辑回归、决策树分类器、随机森林分类器、支持向量机(SVM)、朴素贝叶斯分类器或神经网络。

聚类问题: k-means聚类、层次聚类或DBSCAN。

考虑数据集的大小和性质

a)数据集的大小

如果你有一个小的数据集，就要选择一个不那么复杂的模型，比如线性回归。对于更大的数据集，更复杂的模型，如随机森林或深度学习可能是合适的。

数据集的大小怎么判断：

大型数据集(数千到数百万行):梯度提升、神经网络或深度学习模型。

小数据集(小于1000行):逻辑回归、决策树或朴素贝叶斯。

b)数据标记

数据有预先确定的结果，而未标记数据则没有。如果是标记数据，那么一般都是使用监督学习算法，如逻辑回归或决策树。而未标记的数据需要无监督学习算法，如k-means或主成分分析(PCA)。

c)特性的性质

如果你的特征是分类类型的，你可能需要使用决策树或朴素贝叶斯。对于数值特征，线性回归或支持向量机(SVM)可能更合适。

分类特征:决策树，随机森林，朴素贝叶斯。

数值特征:线性回归，逻辑回归，支持向量机，神经网络， k-means聚类。

混合特征:决策树，随机森林，支持向量机，神经网络。

d）顺序数据

如果处理的是顺序数据，例如时间序列或自然语言，则可能需要使用循环神经网络(rnn)或长短期记忆(LSTM)，transformer等

e) 缺失值

缺失值很多可以使用:决策树，随机森林，k-means聚类。缺失值不对的话可以考虑线性回归，逻辑回归，支持向量机，神经网络。

解释性和准确性哪个更重要

一些机器学习模型比其他模型更容易解释。如果需要解释模型的结果，可以选择决策树或逻辑回归等模型。如果准确性更关键，那么更复杂的模型，如随机森林或深度学习可能更适合。

不平衡的类别

如果你正在处理不平衡类，你可能想要使用随机森林、支持向量机或神经网络等模型来解决这个问题。

处理数据中缺失的值

如果您的数据集中有缺失值，您可能需要考虑可以处理缺失值的imputation技术或模型，例如K-nearest neighbors (KNN)或决策树。

数据的复杂性

如果变量之间可能存在非线性关系，则需要使用更复杂的模型，如神经网络或支持向量机。

低复杂度:线性回归，逻辑回归。

中等复杂度:决策树、随机森林、朴素贝叶斯。

复杂度高:神经网络，支持向量机。

平衡速度和准确度

如果要考虑速度和准确性之间的权衡，更复杂的模型可能会更慢，但它们也可能提供更高的精度。

速度更重要:决策树、朴素贝叶斯、逻辑回归、k-均值聚类。

精度更重要:神经网络，随机森林，支持向量机。

高维数据和噪声

如果要处理高维数据或有噪声的数据，可能需要使用降维技术(如PCA)或可以处理噪声的模型(如KNN或决策树)。

低噪声:线性回归，逻辑回归。

适度噪声:决策树，随机森林，k-均值聚类。

高噪声:神经网络，支持向量机。

实时预测

如果需要实时预测，则需要选择决策树或支持向量机这样的模型。

处理离群值

如果数据有异常值很多，可以选择像svm或随机森林这样的健壮模型。

对离群值敏感的模型:线性回归、逻辑回归。

鲁棒性高的模型:决策树，随机森林，支持向量机。

部署难度

模型的最终目标就是为了上线部署，所以对于部署难度是最后考虑的因素：

一些简单的模型，如线性回归、逻辑回归、决策树等，可以相对容易地部署在生产环境中，因为它们具有较小的模型大小、低复杂度和低计算开销。在大规模、高维度、非线性等复杂数据集上，这些模型的性能可能会受到限制，需要更高级的模型，如神经网络、支持向量机等。例如，在图像和语音识别等领域中，数据集可能需要进行大量的处理和预处理，这会增加模型的部署难度。

总结

选择正确的机器学习模型可能是一项具有挑战性的任务，需要根据具体问题、数据、速度可解释性，部署等都需要做出权衡，并根据需求选择最合适的算法。通过遵循这些指导原则，您可以确保您的机器学习模型非常适合您的特定用例，并可以为您提供所需的见解和预测。

END

如果喜欢本篇的内容记得点点再看，并把他转发到你的朋友圈。请永远不要停止学习，这是你武装自己对抗这个世界最有力的武器！

认真传播知识的科研人

关注公众号

获取人工智能技能+干货

http://mp.weixin.qq.com/s?__biz=MzkzMjQyMzAxMw==&mid=2247494151&idx=1&sn=89161a7983dc3557fa27183037014c2a

Abner说Ai

一个认真传播知识的技术人，日常分享人工智能学习方法+技术文章，希望大家喜欢。

这本关于Transformer模型的书写的太棒了！它无疑是迄今为止最全面、最系统地解析Transformer模型的著作！！

熬了5个通宵看完，酣畅淋漓！是我见过把人工智能数学基础知识讲得最好的！

这本书让我轻松掌握了深度学习的数学基础知识！！不是，写这么好干嘛？？？难怪7000多条评价都有99.9%的好评率！

读研读博都得自救！20多篇SCI斯坦福博士心得：科研入门中文教程，帮你避开要踩几年的坑，养成完善的科研习惯！

KAN卷积神经网络来了！下一轮热点来袭？

天天炸圈的ChatGPT到底是啥？又为什么有效？

这应该是每个学金融人工智能的人都应该看的综述！

省时易懂！弄懂机器学习深度学习概念=30个问答题！

图机器学习封神之作！包含丰富的代码示例、多种图形数据实施的机器学习技术和算法

比啃书看视频更容易入门的深度学习神级网站！超全面！

登上Nature！这次直接分割一切医学图像！基于sam的医学图像分割模型

降维打击！私有数据集是真好发论文啊！一个神级自动化数据标注工具！

深度学习发论文的蓝海领域！关于深度学习机器学习黑盒模型可解释性最强教程书！

50岁发表了400多篇论文的印度大佬写的机器学习数学书是真强啊！

代码水平低，但是要用pytorch做深度学习应该怎么学？

又一个好出论文的方向-深度生成建模！

这应该是关于深度学习神经网络、感知机最通俗的解释了

新手必看！把CNN卷积神经网络讲透！

扩散模型是什么？又是如何工作的？

5本霸榜机器学习深度学习的中文教程书！（附PDF）

2023深度学习初学者必读的8大热门综述推荐（附PDF）

蓄势17年！机器学习必读书籍PRML作者再出新书！直接把深度学习基础、架构、技术讲透！

用一本有代码注释的书解决你几乎所有机器学习问题！

终于让我找到了！嵌入式机器学习唯一一本标准教科书！由 TensorFlow 作者撰写

太..强了！用数据增强轻松解决数据单一、数据量不够、数据集太小的问题！

李飞飞11月新书《我看到的世界》人工智能黎明时的好奇心、探索和发现

【读研人必备】Papers with Code使用指南

真没想到pytorch这么容易学！

从机器学习的历史到未来、应用方法、场景

把数学代入菜市场会是什么样的？

代码有救啦！所有代码逐行解释，放养党起飞

机器学习十大算法的优缺点！

解决（几乎所有）机器学习问题！中文版！！！

图神经网络的底层数学原理总结

掌握这本SCI写作书上的技巧，让你论文无忧！

终于有人把矩阵说清楚了，万字长文解读线性代数中的矩阵

一本书！解决（几乎所有）机器学习问题

21个知识点让你快速上手机器学习

刚读硕士，怎么快速搭建一个神经网络？

神经网络背后的数学原理是什么？

一个好出论文的点：医学＋AI

中国博士把整个 CNN 可视化了！！！

清华最新192页 AIGC发展研究报告PDF

深度学习需要经常复现代码吗？（附带人工智能领域200篇可复现论文）

机器学习模型选择困难者福音！！！

研一没方向？导师放养？论文不知道怎么找？图像分割不可错过的35篇可复现论文【包含22-23年最新论文】

CodeGeeX：Tab 一下，代码生成！

什么是深度学习？从图灵测试谈到ChatGPT

SAM 史上首个图像分割基础模型，cv将迎来GPT-3时刻？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉