审稿人：要警惕打着机器学习的名义“造”论文，特别是判别分析（LDA）

文摘 2024-12-31 09:02 荷兰

前言

判别分析（Discriminant Analysis）是一种经典的分类方法，旨在根据已有样本的分类信息，建立预测分类的模型。其核心是找到变量的线性组合，使得类别间的差异最大化。

其中，线性判别分析（Linear Discriminant Analysis, LDA）是最常见的判别分析方法。LDA假设类别之间具有相同的协方差矩阵，通过寻找最佳分离超平面进行分类。常用于生物学（如基因表达数据分类）、社会科学（如问卷调查数据分析）和金融领域（如信用风险评估）。很多审稿人喜欢看到有创意，比较高级的数据分析，不喜欢传统的判别分析，这方面我保留不同的观点。我相信对于90%的硕博士来说，能够数量掌握经典的数据分析方法，才是优秀的科研潜力的体现。

在今天的教程中，我们将使用 R 和经典的 iris 数据集，完整演示 LDA 的使用流程，包括数据准备、模型训练、结果分析和可视化。

1. 数据准备

# 加载必要的包
library(MASS)
library(ggplot2)
library(caret)

# 加载 iris 数据集
data(iris)

# 确保分类变量是因子
iris$Species <- as.factor(iris$Species)

# 划分训练集和测试集
set.seed(123)
train_index <- createDataPartition(iris$Species, p = 0.7, list = FALSE)
train_data <- iris[train_index, ]
test_data <- iris[-train_index, ]

2. 线性判别分析（LDA）

# 执行线性判别分析
lda_model <- lda(Species ~ ., data = train_data)

# 查看模型结果
print(lda_model)

## Call: ## lda(Species ~ ., data = train_data) ## ## Prior probabilities of groups: ## setosa versicolor virginica ## 0.3333333 0.3333333 0.3333333 ## ## Group means: ## Sepal.Length Sepal.Width Petal.Length Petal.Width ## setosa 4.991429 3.365714 1.471429 0.2314286 ## versicolor 5.942857 2.777143 4.262857 1.3285714 ## virginica 6.631429 2.982857 5.591429 2.0342857 ## ## Coefficients of linear discriminants: ## LD1 LD2 ## Sepal.Length 0.8603517 -0.02531284 ## Sepal.Width 1.3884435 -2.37490707 ## Petal.Length -2.2730220 0.89795664 ## Petal.Width -2.9135037 -2.68733735 ## ## Proportion of trace: ## LD1 LD2 ## 0.992 0.008

3. 模型预测和性能评估

# 在测试集上预测
predictions <- predict(lda_model, test_data)

# 混淆矩阵评估性能
confusion_matrix <- confusionMatrix(predictions$class, test_data$Species)
print(confusion_matrix)

## Confusion Matrix and Statistics ## ## Reference ## Prediction setosa versicolor virginica ## setosa 15 0 0 ## versicolor 0 15 1 ## virginica 0 0 14 ## ## Overall Statistics ## ## Accuracy : 0.9778 ## 95% CI : (0.8823, 0.9994) ## No Information Rate : 0.3333 ## P-Value [Acc > NIR] : < 2.2e-16 ## ## Kappa : 0.9667 ## ## Mcnemar's Test P-Value : NA ## ## Statistics by Class: ## ## Class: setosa Class: versicolor Class: virginica ## Sensitivity 1.0000 1.0000 0.9333 ## Specificity 1.0000 0.9667 1.0000 ## Pos Pred Value 1.0000 0.9375 1.0000 ## Neg Pred Value 1.0000 1.0000 0.9677 ## Prevalence 0.3333 0.3333 0.3333 ## Detection Rate 0.3333 0.3333 0.3111 ## Detection Prevalence 0.3333 0.3556 0.3111 ## Balanced Accuracy 1.0000 0.9833 0.9667

4. 判别结果可视化

# 可视化

lda_data <- data.frame(
  LD1 = predictions$x[,1],
  LD2 = predictions$x[,2],
  Species = test_data$Species
)

ggplot(lda_data, aes(x = LD1, y = LD2, color = Species, shape = Species)) +
  geom_point(size = 4, alpha = 0.8) +
  stat_ellipse(level = 0.95, aes(fill = Species), alpha = 0.2, geom = "polygon") +
  scale_color_manual(values = c("#E41A1C", "#377EB8", "#4DAF4A")) +
  scale_fill_manual(values = c("#E41A1C", "#377EB8", "#4DAF4A")) +
  labs(title = "LDA Visualization: Iris Dataset",
       subtitle = "Projection onto the First Two Linear Discriminants",
       x = "Linear Discriminant 1 (LD1)",
       y = "Linear Discriminant 2 (LD2)") +
  theme_minimal(base_size = 16) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5),
    plot.subtitle = element_text(hjust = 0.5),
    legend.position = "top",
    legend.title = element_blank()
  )

5. 模型优化

如果有必要，可以使用交叉验证进一步优化模型性能。

# 使用交叉验证优化模型
set.seed(123)
lda_tuned <- train(
  Species ~ ., data = train_data,
  method = "lda",
  trControl = trainControl(method = "cv", number = 10)
)

# 打印优化结果
print(lda_tuned)

## Linear Discriminant Analysis ## ## 105 samples ## 4 predictor ## 3 classes: 'setosa', 'versicolor', 'virginica' ## ## No pre-processing ## Resampling: Cross-Validated (10 fold) ## Summary of sample sizes: 94, 94, 94, 94, 93, 96, ... ## Resampling results: ## ## Accuracy Kappa ## 0.9825758 0.9735759

小结

简单的说，判别模型的基本套路包含三个步骤：数据准备和分割；模型训练和预测；可视化与性能评估。判别分析的基本套路非常简单，关键在于数据的准备和后续模型的改进。后续我们将持续更新和其他经典机器学习方法，帮助你应对复杂数据分析任务。如果你有任何疑问或特定需求，请随时联系！

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

最新文章

审稿人：为什么行业大牛的论文总喜欢用这个图？3个R包就能做！

印度青椒：我的爸爸不是校长，我还有希望吗？

审稿人：你以为100%准确率是好事吗？恰恰相反，都overfitting了！

海归博导：中国学生要自信！1个中国的好硕士顶国外的3个博士，组学数据分析已经超越国外同龄人！

审稿人：要警惕打着机器学习的名义“造”论文，特别是判别分析（LDA）

导师：人家隔壁组5行代码就做出了RCS图，你们行不行！

医学科研绘图：年底了，我还在做火山图返修论文，圣诞老人当场对我敬礼！

审稿人：一个Cox比例风险模型，拯救多少医学人的数据分析！

学R语言，看这两本教程就够了

裁员了，很严重，大家做好准备吧！

医学科研绘图：我用R画出这三个图，印度审稿人当场向我敬礼！

“颜值就是影响因子”：R可视化美学提升之条形图代码

资深博导：我从不反对用ChatGPT搞科研，但你得学会用啊！报个班吧，组里给你花钱！

审稿人：看在你弦图好看的份上，勉强大修！R画的吧？

tiff还是png？原来R做PCA绘图可以随意设置分辨率。300dpi，提交！

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

4万粉丝福利送书：说说做微信公众号的心得体会

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

杂志编辑：别argue了，交叉验证不做？审稿人拒稿你，也正常啊。

来了！GPT4o接入个人微信！！

审稿人：一篇论文，三种热图的计算方法都用上，年轻人！不讲武德啊。

导师说：这就是你的线性模型？不如直接用非线性回归。

学R语言，看这两本教程就够了

研究生期间靠自己买车买房的都是些什么人？

R的ggplot2碾压Python的Seaborn + Matplotlib？我不知道，不过都比盗版的origin强

导师问：你R代码没写对啊，第一句就报错“no package called ‘ggplot2’”？如何高情商回答！

答辩专家：这就是能发Nature的随机森林R语言代码吗？

ChatGPT: 三句话，我让审稿人爱上你的配色！

印度导师：我喜欢中国学生，自学能力强，能够自己找标准数据集学习数据分析。

唐长老怒斥：白骨精会用三种语言写代码，你把她打死干什么？你以为你是chatGPT啊

审稿人：就是你们实验室一直用线性回归发表论文吗？

杀疯了，天才博士少年连发Nature：科研工作者使用GPT迎来突破性进展

导师：你去画一些好看的热图(Heatmap)来！用R！

导师30岁：“伸手党”才是好学生，很多学生遇到R包报错就不学了！

文末赠书| 科技论文写作：如何应对奇葩审稿人？

海归博导：还是中国学生靠谱，像R数据导入这种基本操作，在国外得手把手教！

生命科学数据分析技能普及（第一批）

中英文致谢教程：怎样把5个前女友都放到致谢里？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉