机器学习入门 —— 引子

文摘 2024-10-13 02:14 德国

决策树的介绍

决策树是一种通过一系列“是或否”问题来进行分类的机器学习方法。

例子：是否喜欢Dr Leo

决策树中的问题可能包括：“你喜欢看综艺吗？”、“你对科研分享感兴趣吗？”等。
假如有一个人喜欢看综艺，但对科研分享不感兴趣，决策树就会将这个人分类为“不会喜欢Dr Leo”。
决策树就是通过不断根据已有的答案，把人们分成不同的类别（喜欢或不喜欢某事物）。

线性回归和预测

线性回归是一种通过拟合直线来预测未来数据的方法。回归分析用于理解两个变量之间的关系。

例子：吃米饭的量与跑步速度

假设有一个数据集，展示了一个人的饭量与他跑1000米的速度之间的关系。假设我们观察到，饭量越大的人，跑步越快。
我们可以在数据点上画一条直线，这条线可以用于预测：比如说，如果一个人吃了一定量的米饭，根据直线，我们就能预测他跑100米的速度。
这种拟合直线的过程就是线性回归，它用于预测一个未知变量（跑步速度）基于已知变量（吃米饭量）的数值。

模型的训练和测试

训练数据：我们用来构建模型的数据叫做训练数据。通过训练数据，我们可以让模型“学习”到数据之间的规律。
测试数据：一旦模型训练完毕，就需要用一组不同的数据来测试它。这组数据叫做测试数据。

假设我们有一条黑色直线和一条复杂的绿色曲线，它们都拟合了训练数据。表面上看，绿色曲线更好地“记住”了训练数据中的细节，但这并不意味着它会对新的测试数据有良好的预测能力。
通过测试数据进行评估，我们发现黑色直线虽然简单，但它在新数据上的预测更准确；而绿色曲线虽然在训练数据上表现很好，但对新数据的预测反而较差。

偏差-方差权衡（Bias-Variance Tradeoff）

偏差（Bias）：如果模型过于简单（如黑色直线），它可能无法很好地捕捉数据的复杂性，导致较高的偏差。换句话说，它无法很好地拟合训练数据。
方差（Variance）：如果模型过于复杂（如绿色曲线），它可能会“记住”太多的训练数据细节，导致在面对新数据时表现不好，即高方差。这叫做“过拟合”。
权衡：理想的机器学习模型既能在训练数据上表现好，又能在测试数据上有良好的预测能力。过于复杂的模型虽然能很好地拟合训练数据，但对新数据往往表现差，而简单的模型尽管在训练数据上表现稍差，但在测试数据上可能会更稳健。

机器学习中的核心概念：训练数据 vs 测试数据

在训练机器学习模型时，数据集通常分为两个部分：训练数据和测试数据。
训练数据：用于训练模型，使其“学习”到数据之间的模式。
测试数据：用于评估模型的预测能力。测试数据应该是模型在训练过程中没有见过的，才能准确衡量模型对新数据的泛化能力。

我们可以用一组红色的数据点来训练模型（训练数据），并用蓝色的数据点来测试它（测试数据）。根据测试数据的表现，我们可以决定模型是否适合进行预测。

如何选择合适的模型

机器学习中有许多复杂的模型，例如深度学习、卷积神经网络等，但最终选择哪种模型并不在于它的复杂程度，而在于它在测试数据上的表现。

例子：黑色直线 vs 绿色波浪线

在训练数据上，绿色波浪线似乎能完美拟合数据，但在测试数据上，它的预测能力并不如简单的黑色直线。因此，尽管绿色曲线看起来复杂高效，但最终我们选择黑色直线作为我们的模型，因为它在测试数据上的表现更好。

决策树的进一步说明

决策树的例子展示了如何使用它进行分类预测，并通过测试数据验证其准确性。

例子：喜不喜欢Dr Leo

假设我们根据“是否喜欢看综艺”和“是否对科研分享感兴趣”这两个问题构建了一个决策树。通过测试数据的验证，我们可以检查这个决策树是否能准确预测某人是否会喜欢Dr Leo。
比如，一个测试数据中的人不喜欢搞笑歌曲，也不感兴趣于机器学习。根据决策树的推导，我们可能预测这个人不喜欢Dr Leo，但如果实际情况是他喜欢，这就是一个预测错误。

总结

机器学习的核心任务是进行预测和分类。无论是使用决策树、线性回归还是更复杂的深度学习模型，最终目标都是利用数据进行准确预测。
模型的复杂性并不是最重要的，关键在于模型如何在测试数据上表现。我们需要通过测试数据来评估模型的预测能力，以选择最合适的模型。
在模型训练和测试过程中，理解偏差-方差权衡非常重要，既要避免模型过于简单带来的高偏差，也要防止模型过于复杂导致的高方差。

参考文献

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81-106.

Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.

Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR).

Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785-794).

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770-778.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.

http://mp.weixin.qq.com/s?__biz=MzI0NTU2NzAxNw==&mid=2247486481&idx=2&sn=1a56f07835490d9ba418105604616b17

Dr Leo

ENT医生的科研分享

最新文章

T细胞反应的五个阶段

从不会到不怕——用R语言搞懂高斯朴素贝叶斯

一文搞懂ATAC测序

从不会到不怕——朴素贝叶斯

一文搞懂VEGF通路

从不会到不怕——用R语言搞懂t-SNE

独占鳌头！ 95后研究员连发三篇国际顶刊！引爆学术界核弹！

一文搞懂TGF-β信号通路

从不会到不怕——K-means聚类

一文搞懂细胞周期检查点

一文搞懂Cyclin和CDK

从不会到不怕——用R语言搞懂PCA

一文搞懂ddPCR

Toll-Like Receptor (TLR) 信号通路

从不会到不怕——用R语言搞懂Logistic回归

一文读懂IL-2

一文搞懂 IL-6

从不会到不怕——利用线性模型进行T检验和方差分析 (ANOVA)

一文搞懂中性粒细胞外陷阱

从不会到不怕 —— 多元回归

一文搞懂 IL-1

从不会到不怕——线性回归

一文搞懂干扰素

从不会到不怕——多基因风险评分

一文搞懂 RNA interference(RNAi)

你真的搞懂了ROC和AUC吗？

肥大细胞与肿瘤的互作

抗体依赖的细胞介导的细胞毒性（ADCC）

“四两拨千斤”的小分子——趋化因子

《Nature Reviews Genetics》合集——基因组学中的机器学习

“混血”免疫细胞 —— NKT细胞

机器学习基础 —— 混淆矩阵

机器学习基础 —— 交叉验证

一文搞懂共聚焦显微镜

机器学习入门 —— 引子

关于Th2细胞你需要知道这些

DNA损伤反应及修复

关于Th1细胞你需要知道这些

关于Th17细胞你需要知道这些

T细胞全家福：T细胞亚型

一文读懂二代测序（NGS）

善变的免疫细胞 —— 巨噬细胞极化

巨噬细胞亚型 —— M1 vs M2

史上最强！青年博士耗时多年，破解医学领域3大难题！无不称奇！

T细胞分化的前世今生

T细胞激活的三大信号及调控

一文搞懂蛋白质组学

一文搞懂流式细胞术pro

qPCR，你真的懂吗？

药效评价密码——IC50值（文末附绘图代码）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉