KNN算法介绍及案例

文摘其他 2024-11-02 20:27 湖北

KNN算法原理：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

两个样本的距离一般是用欧式距离，即各变量之间的差值平方和再开方。由于各变量的数量级和离散程度都存在差异，在计算欧式距离前一定要进行标准化。

本文用常用的鸢尾花数据做来介绍KNN算法的实现。

加载库

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier 
from sklearn import preprocessing
import matplotlib.pyplot as plt
import pandas as pd

导入数据并进行标准化处理

df=pd.read_csv('iris.csv',encoding = "gbk")
X=df.drop(columns='种类')
y=df['种类']
minmax = preprocessing.MinMaxScaler()
# 标准化处理
Xn= minmax.fit_transform(X)

通过设置不同的K值进行运算

X_train,X_test,y_train,y_test = train_test_split(Xn,y,test_size=0.2,random_state=3) 
dd=[]
for k in range(1,20):
    knn=KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train,y_train)
    scores=cross_val_score(knn,X_train,y_train,cv=3,scoring='accuracy')#进行三次运算 
    mm=round(scores.mean(),3)# 取平均值，保留三位小数
    dd.append(scores.mean())

本例k取12为最优。

完整代码

from sklearn.model_selection import train_test_split 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn import preprocessing
import matplotlib.pyplot as plt
import pandas as pd
df=pd.read_csv('iris.csv',encoding = "gbk")
X=df.drop(columns='种类')
y=df['种类']
minmax = preprocessing.MinMaxScaler()# 标准化处理
Xn= minmax.fit_transform(X)
X_train,X_test,y_train,y_test = train_test_split(Xn,y,test_size=0.2,random_state=3) 
dd=[]
for k in range(1,20):
    knn=KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train,y_train)
    scores=cross_val_score(knn,X_train,y_train,cv=3,scoring='accuracy')#进行三次运算 
    mm=round(scores.mean(),3)# 取平均值，保留三位小数
    dd.append(scores.mean())  
plt.plot(range(1,20),dd)
plt.xlabel('K')
plt.ylabel('Accuracy') #通过图像选择最好的参数(从图形看出准确率最高为12)
plt.show()
knnbest=KNeighborsClassifier(n_neighbors=12) 
knnbest.fit(train_X,train_y) #训练模型
round(knnbest.score(test_X,test_y),3)

knn模型相对比较简单，也容易理解，大家都可以自己操作一下。

http://mp.weixin.qq.com/s?__biz=MzkzNjIxOTkyOQ==&mid=2247489372&idx=2&sn=6736be87da147a74eb21205975418c67

Python学习杂记

数据分析与挖掘、运筹优化、机器学习、AI 、数据可视化等。

最新文章

Jupyter扩展插件使用介绍

SAT 问题和混合整数线性规划问题的区别

Pandas合并数据：concat方法详细介绍

Flask编写API基础案例介绍

Python数据分析和数据处理之多重共线性

国产优质免费AI推荐

folium解决无法打开地图的问题

启发式、元启发式、超启发式算法的区别

Pandas快速可视化方法介绍：折线图、散点图、直方图、箱线图、蜂窝图、饼图等作图代码分享

调用百度批量算路功能介绍

机器学习中熵、信息熵、信息增益的基本介绍

一文了解条件语句的多种写法

Python自动打开文件常用方法

管理者必备的几个思维

Python与Excel交互：xlrd xlwt库简介

Windows环境中Python脚本开机自启动及其监控自启动

使用Python制作动图

多目标优化与多任务优化的区别

理性看待姜萍事件

国产遗传算法包geatpy使用介绍（附Python代码）

pyinstaller打包封装程序介绍

KNN算法介绍及案例

Pandas实现excel透视表数据聚合功能

数据分析相关文章汇总

常见可视化图表使用陷阱！

Pandas处理缺失值的7种方法

DuckDB 到底能处理多大的数据？

机器学习中10种距离介绍（附python代码）

免费学习资料分享（建议保存到网盘）

国产免费AI工具汇总

Pandas的10个经典的高级操作

Pandas高效处理数据方法汇总

免费在线Pandas优质学习资源介绍

Pandas常用操作示例介绍

详解Python强力管家Conda

Python-project-Scripts：Python自动化项目宝库

pyinstaller封装python程序方法介绍

Python中虚拟环境使用介绍

常用快捷键汇总

Python读取带密码的excel文件

Python性能优化：10个提升代码性能的策略

算法图解：让复杂算法变得简单易懂的秘籍

禁忌搜索算法原理及其代码实现（基于TSP问题的python代码）

数学规划求解器 | 手把手教你CPLEX的安装及PyCharm环境的配置

Python单元测试：10个单元测试框架的使用方法

两位人工智能先驱获2024年诺贝尔物理学奖

Python读取多个sheet的excel文件常用方法

运筹学常见的VRP问题基础介绍

十种不同的TSP问题及其数学模型

使用python批量处理图片并转成pdf格式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉