前面我们图解了简单线性回归,也就是只有一个自变量,今天我们来看看自变量有多个的情况,也就是多重线性回归。
先来个整体视角:
再逐步分解开来:
1️⃣ 𝗗𝗔𝗧𝗔 𝗚𝗔𝗧𝗛𝗘𝗥𝗜𝗡𝗚 𝗣𝗛𝗔𝗦𝗘
我们用体重作为因变量,身高作为自变量,并假设它们之间有某种线性关系。
2️⃣ 𝗗𝗔𝗧𝗔 𝗘𝗫𝗣𝗟𝗢𝗥𝗔𝗧𝗜𝗢𝗡 𝗧𝗜𝗠𝗘! 🕵️♂️
要想得到一个好模型就必须先充分了解数据。
在正式训练模型之前,先来探索分析数据。
看,Gender居然也是个重要因素。
当我们将身高与体重绘制成图表时,我们会发现呈现出一种线性模式。
然而……当我们考虑性别时……
结果发现,即使相同身高,不同性别也会是不同体重。
3️⃣ 𝗕𝗘𝗬𝗢𝗡𝗗 𝗛𝗘𝗜𝗚𝗛𝗧
通过性别来拆分数据,我们可以进行两次独立的线性回归。
这两条线的斜率几乎相同,这表明行为相似。
但是截距呢?
它们告诉我们起点是不同的基线。
4️⃣ 𝗠𝗨𝗟𝗧𝗜-𝗩𝗔𝗥𝗜𝗔𝗕𝗟𝗘 📐
我们可以添加多个变量来进行多重线性回归。
其核心理论是一样的:我们仍然使用线性函数来预测目标变量。
但是,我们可以追踪N个自变量的值。
因此,在本例中可以同时考虑身高和性别这两个因素 ➡️ N=2
5️⃣ 𝗧𝗬𝗣𝗘𝗦 𝗢𝗙 𝗩𝗔𝗥𝗜𝗔𝗕𝗟𝗘𝗦 🎲
多重线性回归(MLR)接受数值型和类别型变量。
身高是一个数值型变量——这是一种可以被测量的变量。
性别是一个类别型变量——它将我们的数据划分成不同的组别。
要在模型中使用类别变量,它们必须被编码成二进制变量。
我们可以很容易地将性别变量转换成一个布尔型变量,用1和0来表示。
6️⃣ 𝗧𝗛𝗘 𝗘𝗤𝗨𝗔𝗧𝗜𝗢𝗡 🧮
我们的回归方程就像是一个秘密配方。
它告诉我们需要每种成分(变量)的具体量。
身高每增加一个单位,体重也会相应增加。
但性别也会影响这种关系。
因此,我们需要计算各个变量的权重!
7️⃣ 𝗙𝗜𝗡𝗔𝗟 𝗥𝗘𝗦𝗨𝗟𝗧𝗦 🏁
我们可以使用scikit-learn库来实现这种多重线性回归。
代码非常直观,我们能够轻松获取所有的三个权重值。
针对这两种情况,我们将得到一个统一的方程。
当考虑到性别是0或1时,我们实际上会得到两个方程。
而这两个方程与我们最初得到的非常相似‼️
那么,这就是目前关于线性回归的所有内容了。