虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文摘 2024-11-12 09:00 爱尔兰

一、支持向量机（SVM）简介

支持向量机（Support Vector Machine，简称 SVM）是一种基于统计学习理论的机器学习方法，最初由 Vladimir Vapnik 等人在 20 世纪 90 年代提出。SVM 能够找到一个最优超平面，将数据点进行分类，并且最大化类间间隔。对于非线性数据，SVM 通过使用核函数（kernel function）将数据映射到高维空间，从而实现线性可分性，极大地提升了模型的灵活性和实用性。

SVM 的优缺点及适用场景：

- 优点：SVM 适合处理高维数据，在小样本数据上表现尤佳。它能够有效地解决非线性分类问题，并且对异常点不敏感。

- 缺点：在数据量较大时，SVM 的计算成本较高，训练时间较长。同时，由于本质上是二分类算法，在多类别分类任务中，效果不如直接设计的多类别模型。

SVM 尤其适合小样本且维度较高的数据集，但在噪声较多或特别大的数据集上可能表现不佳。当数据分布明确、类别可分性较高时，SVM 反而可能显得复杂冗余。

二、SVM 的应用与滥用

SVM 在学术研究中应用广泛，尤其在图像识别、文本分类和生物信息学等领域取得了显著成果。例如，在癌症基因预测的研究中，SVM 被用于不同基因表达数据组的分类，展现出强大的预测能力。然而，近年来，SVM 也逐渐成为一些灌水论文中的“噱头”工具。

一些研究者缺乏对数据特性和模型局限的深入理解，简单套用 SVM，以此来提升论文的“高级感”，而忽视了结果的科学性和实际意义。例如，在医学图像分类、文本情感分析等领域，一些论文无视数据特性，简单使用 SVM 进行建模，只为展示“使用了先进算法”，而没有进行模型效果验证或优化，导致结论不够可靠。造成这种现象的原因在于，SVM 算法的理论复杂性和广泛应用往往会让审稿人觉得研究“深度”较高，但如果研究者没有合理地选择模型和核函数，结果并不科学。

正因如此，掌握 SVM 的实际操作、熟练使用代码对于研究生和数据科学学习者来说至关重要。数据科学的普及带来了新的学术要求，合理、科学地使用机器学习算法成为重要的能力。掌握 SVM 编程，不仅可以帮助学生深刻理解数据与模型的关系，还能避免因盲目套用工具而导致研究结论失真。

三、SVM 实战：R 语言的完整实现

接下来，我们将使用 R 语言自带的 iris 数据集，完整展示 SVM 的实现过程。从数据导入、可视化、模型构建、超参数调优到模型验证，逐步讲解。

1. 数据导入和查看

我们选择 R 自带的 iris 数据集进行实验，该数据集包含 150 条记录，描述了三种鸢尾花（setosa、versicolor 和 virginica）的花萼和花瓣尺寸信息。

# 加载数据集
data(iris)
# 查看数据结构
str(iris)

## 'data.frame': 150 obs. of 5 variables: ## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... ## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... ## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... ## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... ## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

2. 数据可视化

在建模之前，可以通过可视化来了解数据的基本分布情况，帮助我们理解特征间的关系。

# 加载可视化包
library(ggplot2)

# 绘制散点图
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point(size = 2) +
  labs(title = "Iris 数据集的散点图")

3. 构建 SVM 模型

在 e1071 包中，我们可以使用 svm 函数轻松地构建 SVM 模型。这里我们使用 Species 作为预测目标，其余特征作为输入特征。

# 加载 e1071 包
library(e1071)

# 划分训练集和测试集
set.seed(123) # 设置随机种子
index <- sample(1:nrow(iris), 0.7 * nrow(iris)) # 70% 为训练集
train_data <- iris[index, ]
test_data <- iris[-index, ]

# 构建 SVM 模型
svm_model <- svm(Species ~ ., data = train_data, kernel = "linear", cost = 1)

# 查看模型
summary(svm_model)

## 
## Call:
## svm(formula = Species ~ ., data = train_data, kernel = "linear", 
##     cost = 1)
## 
## 
## Parameters:
##    SVM-Type:  C-classification 
##  SVM-Kernel:  linear 
##        cost:  1 
## 
## Number of Support Vectors:  24
## 
##  ( 2 10 12 )
## 
## 
## Number of Classes:  3 
## 
## Levels: 
##  setosa versicolor virginica

4. 模型预测与验证

在测试集上验证模型的准确率，观察模型的实际效果。

# 模型预测
predictions <- predict(svm_model, newdata = test_data)

# 混淆矩阵
confusion_matrix <- table(Predicted = predictions, Actual = test_data$Species)

# 计算准确率
accuracy <- sum(diag(confusion_matrix)) / sum(confusion_matrix)
print(paste("模型准确率为：", round(accuracy * 100, 2), "%"))

## [1] "模型准确率为：97.78 %"

5. 超参数调整

我们可以通过调节超参数 cost 和 gamma 来进一步优化模型表现。这里使用网格搜索进行参数调优。

# 超参数网格搜索
tuned_model <- tune(svm, Species ~ ., data = train_data, kernel = "radial",
                    ranges = list(cost = 10^(-1:2), gamma = c(0.5, 1, 2)))

# 获取最佳模型
best_model <- tuned_model$best.model
summary(best_model)

## 
## Call:
## best.tune(METHOD = svm, train.x = Species ~ ., data = train_data, 
##     ranges = list(cost = 10^(-1:2), gamma = c(0.5, 1, 2)), kernel = "radial")
## 
## 
## Parameters:
##    SVM-Type:  C-classification 
##  SVM-Kernel:  radial 
##        cost:  100 
## 
## Number of Support Vectors:  35
## 
##  ( 10 14 11 )
## 
## 
## Number of Classes:  3 
## 
## Levels: 
##  setosa versicolor virginica

6. 模型可视化

通过绘制 SVM 的决策边界来可视化分类效果。

# 绘制决策边界
plot(svm_model, data = train_data, Petal.Width ~ Petal.Length,
     slice = list(Sepal.Width = 3, Sepal.Length = 4))

7. 模型评估

最后，计算精确度、召回率和 F1 值，进一步评估模型的性能。

# 计算精确度、召回率和 F1 值
precision <- diag(confusion_matrix) / rowSums(confusion_matrix)
recall <- diag(confusion_matrix) / colSums(confusion_matrix)
f1_score <- 2 * precision * recall / (precision + recall)

print("精确度：")

## [1] "精确度："

print(precision)

## setosa versicolor virginica ## 1.0000000 1.0000000 0.9285714

print("召回率：")

## [1] "召回率："

print(recall)

## setosa versicolor virginica ## 1.0000000 0.9444444 1.0000000

print("F1 值：")

## [1] "F1 值："

print(f1_score)

## setosa versicolor virginica ## 1.0000000 0.9714286 0.9629630

四、总结与思考

本文详细介绍了支持向量机（SVM）从理论到实战的完整实现过程，包含数据导入、可视化、模型构建、超参数调优和模型验证。SVM 作为一种经典的分类算法，适合处理高维、小样本数据，但在数据集特别庞大、数据噪声较多的情况下表现欠佳。对于学生和研究者而言，掌握 SVM 的基本理论、具备动手实践能力，是一项非常实用的技能！

感谢关注，你的支持是我不懈的动力！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247488306&idx=1&sn=d123ef32e98e6403785f05456e15bb12

科研代码

专注R和Python的数据分析。

最新文章

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

审稿人：我以为用R语言星号标记显著性是常识？结果这些作者纯手工操作！

学术圈疯传：Python也能导出显著性差异到Excel ，多简单？

朋友圈热议：R是燃油车，Python是新能源电车，我全都要！

朋友圈热议：我才知道Python也能导出高分辨率SCI图片？再也不用PPT了。

最害怕统计学，还有救吗？

朋友圈热议：学会“黑盒模型”，你已经击败95%的。。。

不要再手动计算显著性差异了！R代码从计算到出图，abcd标注一步到位！

RDA还是PCA: 冗余分析和主成分分析有区别吗？

纯干货代码！如何全自动计算显著性并用abcd标记柱状图？

论文热议：什么学校一篇SCI学校奖励8万？

R小白：我真不知道什么是Bioconductor！

论文一直投不中？保姆级SCI全程投稿发表服务来了！润色、选刊、投稿、返修，直至中刊！

审稿人：火山图是不是没人用了？

审稿人：才发现这么多人用Excel做散点图？

新手就用Jupyter Notebook写Python代码，不用纠结！

脸盲：图像识别，用R语言还是Python?

来了！GPT4.0接入个人微信！！

PowerBI找工作的真正捷径，超越Python和R！

学R代码，看这两本教程就够了

轰动科研界｜硕博士利用ChatGPT-4o做科研、自动编程、写论文，太方便了...

困在“混合双打”里的海外博士！

资深HR：会Python，不会SQL，这样的简历都被拒了。

直播带你写标书，中标率提升58.6%！一键预约！

审稿人：你才三个变量有必要做PCA吗？

听说你们都忙着看大盘，没人学习数据可视化了？

审稿人：平滑处理会丢失数据特征！

干货！甜甜圈图(Donut Chart)R语言全攻略，建议收藏！

如何用R轻松搞定数据清洗？超全攻略！

下班后死磕R语言，英语不好也能学会数据分析

你好厉害，会用R语言画动态轨迹图！

“科研代码公益课”，你会来参加吗？

审稿人：你的文章很好，用OPLSDA就对了

永久激活GPT4.0！有效期至2296年！我上车了！！

杂志编辑：分辨率太低，我要拒稿你！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉