【机器学习】图解多重线性回归

文摘   2024-09-23 09:19   辽宁  

【机器学习】图解线性回归

前面我们图解了简单线性回归,也就是只有一个自变量,今天我们来看看自变量有多个的情况,也就是多重线性回归。

先来个整体视角:

再逐步分解开来:

1️⃣ 𝗗𝗔𝗧𝗔 𝗚𝗔𝗧𝗛𝗘𝗥𝗜𝗡𝗚 𝗣𝗛𝗔𝗦𝗘

我们用体重作为因变量,身高作为自变量,并假设它们之间有某种线性关系。

2️⃣ 𝗗𝗔𝗧𝗔 𝗘𝗫𝗣𝗟𝗢𝗥𝗔𝗧𝗜𝗢𝗡 𝗧𝗜𝗠𝗘! 🕵️‍♂️

要想得到一个好模型就必须先充分了解数据。

在正式训练模型之前,先来探索分析数据。

看,Gender居然也是个重要因素。

当我们将身高与体重绘制成图表时,我们会发现呈现出一种线性模式。

然而……当我们考虑性别时……

结果发现,即使相同身高,不同性别也会是不同体重。

3️⃣ 𝗕𝗘𝗬𝗢𝗡𝗗 𝗛𝗘𝗜𝗚𝗛𝗧

通过性别来拆分数据,我们可以进行两次独立的线性回归。

这两条线的斜率几乎相同,这表明行为相似。

但是截距呢?

它们告诉我们起点是不同的基线。

4️⃣ 𝗠𝗨𝗟𝗧𝗜-𝗩𝗔𝗥𝗜𝗔𝗕𝗟𝗘 📐

我们可以添加多个变量来进行多重线性回归。

其核心理论是一样的:我们仍然使用线性函数来预测目标变量。

但是,我们可以追踪N个自变量的值。

因此,在本例中可以同时考虑身高和性别这两个因素 ➡️ N=2

5️⃣ 𝗧𝗬𝗣𝗘𝗦 𝗢𝗙 𝗩𝗔𝗥𝗜𝗔𝗕𝗟𝗘𝗦 🎲

多重线性回归(MLR)接受数值型和类别型变量。

身高是一个数值型变量——这是一种可以被测量的变量。

性别是一个类别型变量——它将我们的数据划分成不同的组别。

要在模型中使用类别变量,它们必须被编码成二进制变量。

我们可以很容易地将性别变量转换成一个布尔型变量,用1和0来表示。

6️⃣ 𝗧𝗛𝗘 𝗘𝗤𝗨𝗔𝗧𝗜𝗢𝗡 🧮

我们的回归方程就像是一个秘密配方。

它告诉我们需要每种成分(变量)的具体量。

身高每增加一个单位,体重也会相应增加。

但性别也会影响这种关系。

因此,我们需要计算各个变量的权重!

7️⃣ 𝗙𝗜𝗡𝗔𝗟 𝗥𝗘𝗦𝗨𝗟𝗧𝗦 🏁

我们可以使用scikit-learn库来实现这种多重线性回归。

代码非常直观,我们能够轻松获取所有的三个权重值。

针对这两种情况,我们将得到一个统一的方程。

当考虑到性别是0或1时,我们实际上会得到两个方程。

而这两个方程与我们最初得到的非常相似‼️

那么,这就是目前关于线性回归的所有内容了。

人工智能大讲堂
专注人工智能数学原理和应用
 最新文章