-推荐关注-
1. 什么是线性? 2. 什么是回归? 3. 什么是线性回归? 关键步骤
1. 什么是线性?
如果称一个数学函数为线性的,可以是指:
定义1:可以表示为 的形式(其中为常数)。
这个定义的动机是把函数图像为直线的数量关系称作线性的关系。这种定义在并不是代数严格意义上线性关系,
但在机器学习中,“线性”这个词主要强调模型的形式和几何特性,出于历史、习惯和便于理解的原因,它仍然被称为线性关系(机器学习场景下常用)
严格定义:具有以下两个性质:
可加性:
齐次性:
案例:假设你在跑步,燃烧的卡路里()与跑步的距离()大致成线性关系:
这里,80 是每公里消耗的卡路里,50 是基础代谢导致的额外消耗。
2. 什么是回归?
回归是统计学和机器学习中的一种方法,旨在找出变量之间的关系。 具体来说,回归分析的目标是根据已有的数据预测一个结果。
简单理解:给定一个输入变量(自变量 x),找到一个公式可以预测输出变量(因变量 y)。 核心目标:通过拟合数据点,找到能最好地描述它们的数学模型(例如直线、曲线等)。
案例:假设你记录了过去几天的跑步数据(距离和卡路里消耗),你希望通过这些数据,预测未来跑步某段距离会消耗多少卡路里。
3. 什么是线性回归?
线性回归(Linear Regression)是一种统计学方法,用来研究一个因变量(目标变量)和一个或多个自变量(特征)之间的线性关系。它是机器学习、数据分析和统计学中常用的基础技术之一。
找一个最简单的线性回归模型,假设被预测变量 和单个预测变量之间存在如下线性关系:
其中,
是预测值或因变量,
是截距(对应机器学习中的),
是回归系数(对应机器学习中的),
是自变量。
是误差项,表示模型无法完全解释的部分。
关键步骤
1.搜集数据,找到真实的观察值
2.使用一个特定的方法,来估计回归系数的具体值 和
3.得出一个拟合的回归预测公式
可以看出实际的观测值并不全部落在回归线上,而是分布在回归线的周围。我们可以这样理解:每个观测值 都包含可解释部分 和随机误差项。随机误差项并不意味着错误,而是指观测值与线性模型的偏差。它捕捉到了除 外其他影响 的信息。
现实案例:假设你记录了过去几天的跑步数据(距离和卡路里消耗)(真实的观察值),你希望通过这些数据,想预测消耗的卡路里(因变量)与距离(自变量)的关系,找到未来跑步某段距离会消耗多少卡路里 。
你用过去 30 天的数据建立线性回归模型,得到预测公式是:
, ,尽可能接近实际的关系
使用特定方法,估计出的回归系数具体值
在机器学习领域中的大多数任务通常都与预测(prediction)有关。 当我们想预测一个数值时,就会涉及到回归问题。 常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、 预测需求(零售销量等)。 但不是所有的预测都是回归问题。 比如分类问题,分类问题的目标是预测数据属于一组类别中的哪一个。
--END--