机器学习入门 —— 引子

文摘   2024-10-13 02:14   德国  

决策树的介绍

决策树是一种通过一系列“是或否”问题来进行分类的机器学习方法。

  • 例子:是否喜欢Dr Leo
    • 决策树中的问题可能包括:“你喜欢看综艺吗?”、“你对科研分享感兴趣吗?”等。
    • 假如有一个人喜欢看综艺,但对科研分享不感兴趣,决策树就会将这个人分类为“不会喜欢Dr Leo”。
    • 决策树就是通过不断根据已有的答案,把人们分成不同的类别(喜欢或不喜欢某事物)。

线性回归和预测

线性回归是一种通过拟合直线来预测未来数据的方法。回归分析用于理解两个变量之间的关系。

  • 例子:吃米饭的量与跑步速度
    • 假设有一个数据集,展示了一个人的饭量与他跑1000米的速度之间的关系。假设我们观察到,饭量越大的人,跑步越快。
    • 我们可以在数据点上画一条直线,这条线可以用于预测:比如说,如果一个人吃了一定量的米饭,根据直线,我们就能预测他跑100米的速度。
    • 这种拟合直线的过程就是线性回归,它用于预测一个未知变量(跑步速度)基于已知变量(吃米饭量)的数值。

模型的训练和测试

  • 训练数据:我们用来构建模型的数据叫做训练数据。通过训练数据,我们可以让模型“学习”到数据之间的规律。
  • 测试数据:一旦模型训练完毕,就需要用一组不同的数据来测试它。这组数据叫做测试数据。
    • 假设我们有一条黑色直线和一条复杂的绿色曲线,它们都拟合了训练数据。表面上看,绿色曲线更好地“记住”了训练数据中的细节,但这并不意味着它会对新的测试数据有良好的预测能力。
    • 通过测试数据进行评估,我们发现黑色直线虽然简单,但它在新数据上的预测更准确;而绿色曲线虽然在训练数据上表现很好,但对新数据的预测反而较差。

偏差-方差权衡(Bias-Variance Tradeoff)

  • 偏差(Bias):如果模型过于简单(如黑色直线),它可能无法很好地捕捉数据的复杂性,导致较高的偏差。换句话说,它无法很好地拟合训练数据。
  • 方差(Variance):如果模型过于复杂(如绿色曲线),它可能会“记住”太多的训练数据细节,导致在面对新数据时表现不好,即高方差。这叫做“过拟合”。
  • 权衡:理想的机器学习模型既能在训练数据上表现好,又能在测试数据上有良好的预测能力。过于复杂的模型虽然能很好地拟合训练数据,但对新数据往往表现差,而简单的模型尽管在训练数据上表现稍差,但在测试数据上可能会更稳健。

机器学习中的核心概念:训练数据 vs 测试数据

  • 在训练机器学习模型时,数据集通常分为两个部分:训练数据和测试数据。
  • 训练数据:用于训练模型,使其“学习”到数据之间的模式。
  • 测试数据:用于评估模型的预测能力。测试数据应该是模型在训练过程中没有见过的,才能准确衡量模型对新数据的泛化能力。
    • 我们可以用一组红色的数据点来训练模型(训练数据),并用蓝色的数据点来测试它(测试数据)。根据测试数据的表现,我们可以决定模型是否适合进行预测。


如何选择合适的模型

机器学习中有许多复杂的模型,例如深度学习、卷积神经网络等,但最终选择哪种模型并不在于它的复杂程度,而在于它在测试数据上的表现。

  • 例子:黑色直线 vs 绿色波浪线
    • 在训练数据上,绿色波浪线似乎能完美拟合数据,但在测试数据上,它的预测能力并不如简单的黑色直线。因此,尽管绿色曲线看起来复杂高效,但最终我们选择黑色直线作为我们的模型,因为它在测试数据上的表现更好。

决策树的进一步说明

决策树的例子展示了如何使用它进行分类预测,并通过测试数据验证其准确性。

  • 例子:喜不喜欢Dr Leo
    • 假设我们根据“是否喜欢看综艺”和“是否对科研分享感兴趣”这两个问题构建了一个决策树。通过测试数据的验证,我们可以检查这个决策树是否能准确预测某人是否会喜欢Dr Leo。
    • 比如,一个测试数据中的人不喜欢搞笑歌曲,也不感兴趣于机器学习。根据决策树的推导,我们可能预测这个人不喜欢Dr Leo,但如果实际情况是他喜欢,这就是一个预测错误。

总结

  • 机器学习的核心任务是进行预测和分类。无论是使用决策树、线性回归还是更复杂的深度学习模型,最终目标都是利用数据进行准确预测。
  • 模型的复杂性并不是最重要的,关键在于模型如何在测试数据上表现。我们需要通过测试数据来评估模型的预测能力,以选择最合适的模型。
  • 在模型训练和测试过程中,理解偏差-方差权衡非常重要,既要避免模型过于简单带来的高偏差,也要防止模型过于复杂导致的高方差。

参考文献

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5-32.
Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81-106.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.
Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. International Conference on Learning Representations (ICLR).
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785-794).
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770-778.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.

Dr Leo
ENT医生的科研分享
 最新文章