大胆猜想，无监督机器学习才是未来科研的主流

文摘 2024-07-18 09:00 荷兰

很多机器学习的初学者一定会遇到2个基本的概念：监督学习和非监督学习。我们这个公众号的初心就是为初学者打开一扇数据分析的大门，降低学习成本，进而能享受本不开心的学习和工作。

今天我们来聊一聊监督学习和非监督学习这两种机器学习方法。机器学习中的每一个project（项目），就像讲一个完整的故事。这次更新，我也会用两个有趣的小故事来解释它们的区别，并附上R语言的代码示例和可视化部分，让你更好地理解这两种方法。

故事一：监督学习——猫咪分类

想象一下，你想要创建一个模型来识别猫的品种。你收集了一大堆猫咪的照片，并且每张照片都有一个标签，告诉你这只猫是波斯猫、缅因猫还是英国短毛猫。这就是一个典型的监督学习问题，因为你有明确的标签（品种），可以用来训练模型。

R代码示例：

# 加载必要的库
library(ggplot2)
library(caret)

# 生成一些模拟数据
set.seed(123)
data <- data.frame(
  Length = rnorm(100, mean = 50, sd = 10),
  Weight = rnorm(100, mean = 10, sd = 2),
  Breed = factor(rep(c('Persian', 'Maine Coon', 'British Shorthair'), length.out = 100))
)

# 可视化数据
ggplot(data, aes(x = Length, y = Weight, color = Breed)) +
  geom_point() +
  labs(title = "猫咪品种分类", x = "长度", y = "重量")

# 划分训练集和测试集
set.seed(123)
trainIndex <- createDataPartition(data$Breed, p = 0.8, list = FALSE)
trainData <- data[trainIndex,]
testData <- data[-trainIndex,]

# 训练模型
model <- train(Breed ~ Length + Weight, data = trainData, method = "rpart")

# 预测
predictions <- predict(model, testData)

# 结果
confusionMatrix(predictions, testData$Breed)

## Confusion Matrix and Statistics
## 
##                    Reference
## Prediction          British Shorthair Maine Coon Persian
##   British Shorthair                 2          3       3
##   Maine Coon                        1          3       2
##   Persian                           3          0       1
## 
## Overall Statistics
##                                           
##                Accuracy : 0.3333          
##                  95% CI : (0.1334, 0.5901)
##     No Information Rate : 0.3333          
##     P-Value [Acc > NIR] : 0.5878          
##                                           
##                   Kappa : 0               
##                                           
##  Mcnemar's Test P-Value : 0.3916          
## 
## Statistics by Class:
## 
##                      Class: British Shorthair Class: Maine Coon Class: Persian
## Sensitivity                            0.3333            0.5000        0.16667
## Specificity                            0.5000            0.7500        0.75000
## Pos Pred Value                         0.2500            0.5000        0.25000
## Neg Pred Value                         0.6000            0.7500        0.64286
## Prevalence                             0.3333            0.3333        0.33333
## Detection Rate                         0.1111            0.1667        0.05556
## Detection Prevalence                   0.4444            0.3333        0.22222
## Balanced Accuracy                      0.4167            0.6250        0.45833

这个代码展示了如何使用监督学习的方法来分类猫咪的品种。我们用猫咪的长度和重量作为特征，来训练一个模型，并用这个模型来预测新的猫咪照片的品种。

故事二：非监督学习——顾客分群

现在，想象一下你是一个市场分析师，你想要了解你的顾客群体。你收集了大量关于顾客消费行为的数据，但这些数据没有明确的标签（比如顾客类型）。你希望通过分析这些数据，找出顾客的不同群体。这就是一个非监督学习的问题，因为你没有事先的标签，只能通过数据本身来发现规律。

R代码示例：

# 加载必要的库
library(ggplot2)
library(cluster)

# 生成一些模拟数据
set.seed(123)
data <- data.frame(
  AnnualIncome = rnorm(100, mean = 50000, sd = 10000),
  SpendingScore = rnorm(100, mean = 50, sd = 10)
)

# 执行K均值聚类
set.seed(123)
kmeans_result <- kmeans(data, centers = 3)

# 将聚类结果添加到数据中
data$Cluster <- as.factor(kmeans_result$cluster)

# 可视化聚类结果
ggplot(data, aes(x = AnnualIncome, y = SpendingScore, color = Cluster)) +
  geom_point() +
  labs(title = "顾客分群", x = "年收入", y = "消费评分")

这个代码展示了如何使用非监督学习的方法来进行顾客分群。我们用顾客的年收入和消费评分作为特征，进行K均值聚类，从而找出顾客的不同群体。

总结

通过这两个故事，我们可以看到监督学习和非监督学习的核心区别：

监督学习：有明确的标签，用这些标签来训练模型。例如，猫咪分类。
非监督学习：没有明确的标签，通过数据本身发现规律。例如，顾客分群。

希望这些例子和代码能帮助你更好地理解这两种机器学习方法！

感谢关注！

http://mp.weixin.qq.com/s?__biz=MzI2MTkxOTgzMQ==&mid=2247486637&idx=1&sn=0743c199043180ffeb79d4a57e4e0b38

科研代码

专注R和Python的数据分析。

最新文章

文氏图还是韦恩图？糟糕的翻译，但R和Python代码可以！

医学生：我就爱用R怎么了？

审稿人：我只用星星标注显著性差异！

宣布了！博士、教授们！

审稿人：你的PCA没分开啊，分辨率也太低了！

审稿人：学会线性回归，学会用AI发论文。

条形图代码：你用了，论文就接收了！

永久激活GPT4.0！有效期至2296年，我上车了！！

恰恰相反，R和Python都比SPSS好用！

学会了，R配色！

羽哥，我总是免费给女神做显著性分析，这样做对吗？

小羽的书屋：我学数据分析用过的那些书

审稿人: 相关性那么高，是因为你的异常值吧。

用个人网站代替简历，你不知道的找工作捷径（R+github+hugo）

36岁程序员：老板最喜欢用聚类分析啊，你得学会啊！

为什么总感觉用R的人比用Python的多？

资深审稿人向我道歉，请求不要再用PCA分析数据了

审稿人：你看看机器学习和深度学习相结合都应用在哪里？

从Rstudio转向Pycharm，真香！

审稿人：你为什么不用PyTorch包做机器学习?

科研代码：我喜欢Rstudio，我怕它凉了！

审稿人：贝叶斯统计建模, 正在大量发表！

三行代码调用你想要的数据集，请直接拿去！

学R代码，看这两本教程就够了

数据新生：随便搞搞分析，有必要知道Pipeline吗？

成立了！博士们！

审稿人：我沉迷PLSDA分类，再也不用线性分析

资深HR: 我们其实很少招聘只会R语言的毕业生

审稿人：最好用的模型评价不就是准确率嘛?

恭喜各位天命人！资助45681项！24年国自然结果公布！专业评审直播解读，连麦答疑！

审稿人：我看够套路写的文章了，尤其是PCA搭配分类模型

黑神话悟空：如来如果会写代码？判别分析就很简单

太香了，用GPT-4o做科研，免费帐号GPT4.0，我上车了！！

最快完成数据分析发论文，还是得用SPSS

审稿人：最适合新手发论文的判别模型，不用修改稿！

藏不住了！大牛帮选刊投稿后，被拒的5篇SCI全中了！

科研代码：国内对开放获取的偏见该放下了！

我说Scikit-learn是最简单的机器学习库，谁赞成？谁反对？

永久激活GPT4.0！有效期至2296年，我上车了！！

PCA降维：维度其实是一个很难理解的概念

审稿人竟然说SVM只能用来二元分类？绷不住了

学R不好找工作？我们公众号也有自己的知识星球了

审稿人：别让本科生写论文了，他们甚至没做数据预处理！

文末赠书|AI for Science：AI+生命科学的落地应用

学R代码，看这两本教程就够了

新扎师妹：最烦用API调用数据了，一堆乱码！

经验之谈：做科学公众号，一年三万粉丝，收获是学会挨骂

宣布了！博士们！

资深博导：学生问为什么训练集要三七分？我懵了！

轰动科研代码界 | 创世界首列，运用此技术连发多篇顶刊， GPT-4o科研论文与算法，太强了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉