基于支持向量机和SVM的人脸识别案例

情感 2024-10-20 12:00 中国

公众号：尤而小屋
编辑：Peter
作者：Peter

大家好，我是Peter~

今天给大家介绍一个基于支持向量机SVM和PCA降维的人脸识别的实战案例，主要包含：

人脸数据lfw数据集下载
PCA降维
基于SVM的分类模型构建
模型分类预测结果可视化

效果如下图：

基于SVM和PCA算法的人脸识别

使用数据为fetch_lfw_people人脸数据集。数据集中每个人至少有一张图片，每张图片都对应不同的人。这个数据集的目标是训练一个分类器来识别不同的人。

官网地址：https://scikit-learn.org/1.5/modules/generated/sklearn.datasets.fetch_lfw_people.html

sklearn.datasets.fetch_lfw_people(
    data_home=None, 
    funneled=True, 
    resize=0.5, 
    min_faces_per_person=0, 
    color=False, 
    slice_=(slice(70, 195, None), slice(78, 172, None)), 
    download_if_missing=True, 
    return_X_y=False)

导入库

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_lfw_people
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.decomposition import PCA
from sklearn.svm import SVC

导入数据

lfw_people = fetch_lfw_people(min_faces_per_person=70, resize=0.4)
type(lfw_people)

sklearn.utils._bunch.Bunch

数据基本信息：

n_samples, h, w = lfw_people.images.shape

n_samples, h, w # 数据量、高度、宽度

(1288, 50, 37)

分离特征X和目标y

1、获取特征

数据特征X和特征数量：

X = lfw_people.data
n_features = X.shape[1]  # 特征数量
X[:2]


array([[0.99607843, 0.9973857 , 0.9908497 , ..., 0.37908497, 0.38823533,0.38169935],
[0.1503268 , 0.19607843, 0.1764706 , ..., 0.45882353, 0.44313726,0.53594774]], dtype=float32)

n_features

1850

len(X)  # 样本量

1288

2、分离目标变量y

y = lfw_people.target
target_names = lfw_people.target_names

array([5, 6, 3, ..., 5, 3, 5], dtype=int64)

target_names


array(['Ariel Sharon', 'Colin Powell', 'Donald Rumsfeld', 'George W Bush',
'Gerhard Schroeder', 'Hugo Chavez', 'Tony Blair'], dtype='<U17')

# 总类别数：
n_classes = target_names.shape[0]
n_classes

print("整体数据基本信息:")
print("样本量: %d" % n_samples)
print("特征数: %d" % n_features)
print("分类数: %d" % n_classes)

整体数据基本信息: 样本量: 1288 特征数: 1850 分类数: 7

数据切分train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

降维PCA

由于数据的特征过多，使用PCA算法进行降维：

n_components = 150

pca = PCA(n_components=n_components, # 选择150个主成分；从1850--->150
          svd_solver='randomized',
          whiten=True).fit(X_train)

生成降维后的数据：

new_lfw_people = pca.components_.reshape((n_components,h,w))
new_lfw_people.shape

(150, 50, 37)

X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

SVM模型

训练

# 模型参数
param_grid = {'C': [1e3, 5e3, 1e4, 5e4, 1e5],
             'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1], }

# 网格搜索
clf = GridSearchCV(
    SVC(kernel='rbf', class_weight='balanced'), 
    param_grid
)

# 模型的训练
clf = clf.fit(X_train_pca,y_train)

模型的最佳参数组合：

print(clf.best_estimator_)

SVC(C=1000.0, class_weight='balanced', gamma=0.005)

预测

y_pred = clf.predict(X_test_pca)
y_pred[:10]

array([3, 3, 6, 3, 3, 3, 4, 1, 3, 3], dtype=int64)

模型评估

对分类模型的效果进行评估：

# 分类报告
print(classification_report(y_test,y_pred,target_names=target_names))

                   precision    recall  f1-score   support

     Ariel Sharon       0.88      0.54      0.67        13
     Colin Powell       0.75      0.88      0.81        60
  Donald Rumsfeld       0.85      0.63      0.72        27
    George W Bush       0.86      0.97      0.91       146
Gerhard Schroeder       0.95      0.80      0.87        25
      Hugo Chavez       1.00      0.47      0.64        15
       Tony Blair       0.97      0.81      0.88        36

         accuracy                           0.85       322
        macro avg       0.89      0.73      0.79       322
     weighted avg       0.86      0.85      0.85       322

# 混淆矩阵
print(confusion_matrix(y_test, y_pred, labels=range(n_classes)))

结果表示为：


[[  7   2   0   4   0   0   0]
[  1  53   2   4   0   0   0]
[  0   4  17   6   0   0   0]
[  0   4   0 142   0   0   0]
[  0   1   0   3  20   0   1]
[  0   5   0   2   1   7   0]
[  0   2   1   4   0   0  29]]

可视化

def plot_gallery(images, titles, h, w, n_row=3, n_col=4):
    """
    images: 图像数据
    titles：标题列表
    h：高度
    w：宽度
    n_row=3，n_col=4：图形的行列数
    """
    plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))  # 图像大小
    plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)  # 调整子图之间的距离
    
    for i in range(n_row * n_col):  # 遍历所有的子图
        plt.subplot(n_row, n_col, i + 1)
        plt.imshow(images[i].reshape((h, w)), cmap=plt.cm.gray)
        plt.title(titles[i], size=12)
        plt.xticks(())
        plt.yticks(())

def title(y_pred, y_test, target_names, i):
    """
    y_pred：预测值
    y_test：真实值
    target_names：名称列表
    i：索引值
    """
    pred_name = target_names[y_pred[i]].rsplit(' ', 1)[-1]
    true_name = target_names[y_test[i]].rsplit(' ', 1)[-1]
    return f'predicted: {pred_name} \ntrue: {true_name}'

target_names

array(['Ariel Sharon', 'Colin Powell', 'Donald Rumsfeld', 'George W Bush',
'Gerhard Schroeder', 'Hugo Chavez', 'Tony Blair'], dtype='<U17')

y_pred[:10]

array([3, 3, 6, 3, 3, 3, 4, 1, 3, 3], dtype=int64)

预测的标题列表：

prediction_titles = [title(y_pred, y_test, target_names, i) for i in range(y_pred.shape[0])]
prediction_titles[:5]

['predicted: Bush \ntrue: Bush', 'predicted: Bush \ntrue: Bush', 'predicted: Blair \ntrue: Blair', 'predicted: Bush \ntrue: Bush', 'predicted: Bush \ntrue: Bush']

可视化效果：

plot_gallery(X_test, prediction_titles, h, w)

eigenface_titles = ["eigenface %d" % i for i in range(new_lfw_people.shape[0])]

eigenface_titles[:10]

['eigenface 0', 'eigenface 1', 'eigenface 2', 'eigenface 3', 'eigenface 4', 'eigenface 5', 'eigenface 6', 'eigenface 7', 'eigenface 8', 'eigenface 9']

plot_gallery(new_lfw_people, eigenface_titles, h, w)

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2MDAyMQ==&mid=2247561014&idx=1&sn=c4d36f0ef7b3f455501715bb0a20e4d8

尤而小屋

尤而小屋，一个温馨且有爱的小屋🏡 小屋主人，一手代码谋求生存，一手掌勺享受生活，欢迎你的光临~

最新文章

时间序列预测神器Prophet【教程3】：突变点预测

酷炫！10张BI可视化大屏模板，拿来即用！

机器学习：欧式距离、曼哈顿距离、切比雪夫距离

Neo4j，图算法最强总结！

畅销19万册！MySQL入门经典书重磅升级

机器学习集成方法总结：Bagging, Boosting, Stacking, Voting, Blending

最强图解微型神经网络：多层感知器MLP

李飞飞：一位备受尊敬的女性AI学者

基于深度学习的工业异常检测

具身智能，下一波AI浪潮！

数据别愁！14个机器学习电影数据集

总结7大数据分析方法

Python实现10种顶流聚类算法（附代码）

由浅入深！100个pandas数据处理技巧

超强图解Transformer

豆瓣9.6，多语言版本全球发行，AWS经典再升级！

刚刚！阿里巴巴公布“姜萍时间”调查结果公布

大模型&推荐系统，强强联手！

从小白到Kaggle Grandmaster的比赛技巧

基于支持向量机和SVM的人脸识别案例

热销17万册，《算法图解》第二版终于来了！

8种高级特征工程技术

jupyter notebook进阶使用：nbextensions

中国高校面积Top10

大模型应用开发：RAG入门与实战（文末赠书）

2024年诺贝尔物理学奖，颁给了搞AI的！

刚刚，诺贝尔化学奖，揭晓！AI是没有边界的！

上海交大ACM班总教头俞勇教授团队第4本重磅新作出版啦！

后悔没早看！985研究生必备论文配图法

突发！高通准备收购英特尔？

《李宏毅：深度学习详解》终于出版了！

pandas处理时间序列数据：基础知识点

IBM中国裁员赔偿N+3！千人被裁，中国研发部彻底关闭！

基于长短期记忆模型LSTM的股价预测实战

机器学习神器Scikit-Learn超强图解

豆瓣评分9.3，畅销29年，深受哈佛、剑桥、清华等名校青睐

时间序列预测神器Prophet【教程2】：饱和预测

吴恩达，YYDS!

吴恩达团队最新成果: ManyICL

销量超10万+，这3本书凭什么能得到Python之父推荐？

数据预处理10大必备技巧

时间序列预测神器Prophet【教程1】：极简入门案例

Python实现10种概率分布（附代码）

文末赠书|AI for science：人工智能驱动科学创新

深度学习10种优化算法原理及实现（附代码）

2024最值得关注的10个深度学习算法

国产大模型之光-Kimi AI

机器学习：基于scikit-learn进行特征工程

彻底弄懂Python单星号、双星号的使用

超强Pandas图解教程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉