如果说线性回归是回归任务的hello world,那么逻辑回归就是机器学习分类任务的敲门砖。
前面我们图解了线性回归模型,今天我们来可视化逻辑回归。
先来个整体视角:
再逐步分解开来:
1️⃣ 𝗟𝗢𝗚𝗜𝗦𝗧𝗜𝗖 𝗥𝗘𝗚𝗥𝗘𝗦𝗦𝗜𝗢𝗡
这是一个二元分类模型,用于将输入数据分为两大类。
它可以扩展为多分类模型……但今天我们将专注于二元分类。
也被称为简单逻辑回归。
2️⃣ 𝗛𝗢𝗪 𝗧𝗢 𝗖𝗢𝗠𝗣𝗨𝗧𝗘 𝗜𝗧?
Sigmoid 函数是我们的数学魔杖,将数字转换为介于 0 和 1 之间的概率。
它使逻辑回归发挥作用,给我们一个清晰的“概率”图景。
3️⃣ 𝗛𝗢𝗪 𝗧𝗢 𝗗𝗘𝗙𝗜𝗡𝗘 𝗧𝗛𝗘 𝗕𝗘𝗦𝗧 𝗙𝗜𝗧?
对于每一个参数化的机器学习算法,我们都需要一个损失函数。
它是我们找到最优解或全局最小值的地图。
从线性回归到逻辑回归
为了得到sigmoid函数,我们可以从线性回归方程中推导出来。
4️⃣ 𝗛𝗢𝗪 𝗧𝗢 𝗢𝗕𝗧𝗔𝗜𝗡 𝗜𝗧 𝗠𝗔𝗧𝗛𝗘𝗠𝗔𝗧𝗜𝗖𝗔𝗟𝗟𝗬?
在二元分类中,模型输出对应于预测的y值:
对于一个类别是0
对于另一个类别是1。
(记住我们目前是在二元分类模型中!)
二分类交叉熵损失函数推导过程
5️⃣ 𝗙𝗜𝗡𝗗 𝗧𝗛𝗘 𝗢𝗣𝗧𝗜𝗠𝗔𝗟 𝗦𝗢𝗟𝗨𝗧𝗜𝗢𝗡
为了找到最优参数值,我们使用梯度下降法。
它小心地在代价函数的地形上导航,寻找参数的最优谷底。
通过迭代,我们逐步接近最优解。
6️⃣ 𝗠𝗢𝗗𝗘𝗟 𝗘𝗩𝗔𝗟𝗨𝗔𝗧𝗜𝗢𝗡
一旦我们的模型之旅完成,我们通过混淆矩阵和ROC曲线等试验来评估它的表现。
只有那些证明其价值的模型才能被授予部署的“骑士称号”。
7️⃣ 𝗔𝗦𝗦𝗨𝗠𝗣𝗧𝗜𝗢𝗡𝗦 𝗢𝗙 𝗧𝗛𝗘 𝗠𝗢𝗗𝗘𝗟
我们的逻辑回归模型建立在坚实的假设基础上:
二元结果。
对数几率的线性关系。
无多重共线性。
大样本量。