面试小红书，大失误。。。

文摘 2024-11-12 17:15 北京

你好，我是kk~

继续总结大家在面试中遇到的各种情况。

最近有一个小伙伴面试了小红薯，结果一系列失误的情况出现了。在面试之前听有的小伙伴说小红书注重项目，结果面试的时候，由于面试官性格的原因，一直怼基础。

第一个问题就是关于「岭回归」的问题。咱们今儿来好好说说~

首先，岭回归是一种用于解决多重共线性问题的线性回归方法。

当数据的自变量（特征）之间存在较强的相关性时，普通最小二乘（Ordinary Least Squares, OLS）回归的结果可能会变得不稳定，导致模型的方差增大，进而影响预测的精度。

岭回归通过在损失函数中加入惩罚项，能够在一定程度上抑制这种不稳定性。

1. 岭回归基本原理

岭回归的损失函数

岭回归的目标是在最小化均方误差（MSE）的基础上增加一个对模型参数的惩罚项。其损失函数可以表示为：

其中：

表示实际值
是预测值，定义为
表示第个样本的特征向量
是模型参数向量
是正则化参数（或称为惩罚系数），控制惩罚项对损失的影响

当时，岭回归退化为普通的线性回归；而当时，模型参数会被强制趋近于 0，从而实现更强的正则化。

问题的推导

首先，回归的损失函数可以表示为：

展开后得到：

为简化运算，我们对求导并设其为零，从而得到岭回归的闭式解：

化简得：

因此，岭回归的参数解可以表示为：

其中，是一个的单位矩阵。通过引入，原本不可逆的矩阵得以变成可逆矩阵，从而可以求出解。

2. 岭回归的作用与优势

抑制多重共线性

当特征之间高度相关时，可能会接近奇异矩阵，导致其逆矩阵不稳定或不可求。通过在中加入，岭回归可以使得该矩阵变得更加稳定。

防止过拟合

岭回归的惩罚项限制了模型的参数幅度，从而避免模型对训练数据的过度拟合。对于噪声较大的数据集，岭回归能够减少方差，使得模型的预测更加鲁棒。

3. 使用 Python 进行岭回归建模

接下来，我们通过一个虚拟数据集的实际案例来演示如何使用 Python 进行岭回归的模型训练、评估以及绘图。

数据生成与数据可视化

我们首先生成一个包含多重共线性的虚拟数据集。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from mpl_toolkits.mplot3d import Axes3D

# 设置随机种子以便复现
np.random.seed(42)

# 生成虚拟数据
n_samples = 100
X = np.random.rand(n_samples, 2) * 10  # 两个特征，范围在0到10之间
y = 3 * X[:, 0] + 2 * X[:, 1] + np.random.randn(n_samples) * 2  # 加入噪声

# 数据拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 绘制数据分布
fig = plt.figure(figsize=(12, 6))
ax = fig.add_subplot(121, projection='3d')
sc = ax.scatter(X[:, 0], X[:, 1], y, c=y, cmap='viridis', edgecolor='k', s=50)
plt.colorbar(sc)
ax.set_xlabel("Feature 1")
ax.set_ylabel("Feature 2")
ax.set_zlabel("Target")
ax.set_title("3D Scatter Plot of the Data")

ax2 = fig.add_subplot(122)
plt.scatter(X[:, 0], y, color='b', label='Feature 1', alpha=0.6, edgecolor='k')
plt.scatter(X[:, 1], y, color='r', label='Feature 2', alpha=0.6, edgecolor='k')
plt.xlabel("Feature Value")
plt.ylabel("Target Value")
plt.legend()
plt.title("Projection of Features vs Target")
plt.show()

岭回归模型训练与测试

# 定义不同的惩罚系数
lambdas = [0.1, 1, 10, 100, 1000]
ridge_models = []
mse_train = []
mse_test = []

for lam in lambdas:
    ridge = Ridge(alpha=lam)
    ridge.fit(X_train, y_train)
    ridge_models.append(ridge)
    # 计算训练和测试误差
    y_train_pred = ridge.predict(X_train)
    y_test_pred = ridge.predict(X_test)
    mse_train.append(mean_squared_error(y_train, y_train_pred))
    mse_test.append(mean_squared_error(y_test, y_test_pred))

# 绘制不同惩罚系数下的MSE变化
plt.figure(figsize=(10, 6))
plt.plot(lambdas, mse_train, label='Train MSE', marker='o', color='blue', linewidth=2)
plt.plot(lambdas, mse_test, label='Test MSE', marker='o', color='red', linewidth=2)
plt.xscale('log')
plt.xlabel('Lambda (Regularization Strength)')
plt.ylabel('Mean Squared Error')
plt.title('Effect of Regularization on Training and Testing Error')
plt.legend()
plt.grid(True)
plt.show()

参数影响的可视化

我们进一步分析不同的正则化参数对模型系数的影响。

# 绘制不同惩罚系数下的系数变化
coeffs = [ridge.coef_ for ridge in ridge_models]

plt.figure(figsize=(10, 6))
plt.plot(lambdas, [coef[0] for coef in coeffs], label='Coefficient of Feature 1', marker='o', color='purple', linewidth=2)
plt.plot(lambdas, [coef[1] for coef in coeffs], label='Coefficient of Feature 2', marker='o', color='green', linewidth=2)
plt.xscale('log')
plt.xlabel('Lambda (Regularization Strength)')
plt.ylabel('Coefficient Value')
plt.title('Effect of Regularization on Coefficients')
plt.legend()
plt.grid(True)
plt.show()

通过图像我们可以发现：

当较小（接近于 0）时，岭回归与普通最小二乘法的结果相近，模型较容易出现过拟合；
随着的增大，模型的系数逐渐被收缩，有效抑制了特征之间的共线性，降低了模型的方差，从而改善了泛化性能。

http://mp.weixin.qq.com/s?__biz=Mzg4MDg4MzQ5Nw==&mid=2247492962&idx=1&sn=653cf6865ed8b76745c9d7621b8bfdee

kk机器学习算法

机器学习基础、计算机视觉…

最新文章

面试理想汽车，搞砸了。。。

面试小鹏汽车，问的太细致了。。

深入浅出Batch Size，对模型训练的影响分析

最强目标检测大合集！！

面试腾讯，开心起飞。。。

商汤三面，有遗憾。。。

面试拼多多，麻了。。。

面试腾讯，offer到手！！

YOLO跌落神坛？新一代目标检测器又有新突破！

字节一面，贼细致。。

面试米哈游，太痛苦了。。

面试蚂蚁，太爽了。。。

京东太离谱了，校招算法岗轻松给70。。。

面试小红书，大失误。。。

面试蚂蚁，超预期。。。

面试小米，惨不忍睹。。。

离谱，二面视觉算法岗“寄”在大模型

讨论 XGBoost，太激烈了。。

面试米哈游，奔溃。。。

面试阿里，超级爽！！

26申博时间规划！别再按老套路来了，没用

面试理想汽车，爽爆了。。

面试拼多多，麻了。。。

面试字节，问暴了。。

讨论Prophet 模型，太精彩！！

Transformer 3D姿势估计器。。

完爆YOLO？新一代目标检测器又有新突破！！

腾讯算法岗，上岸！！

大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

突破一个强大算法模型，核支持向量机！！

20场kaggle机器学习比赛Top方案GrandMaster整理！

突破一个强大算法模型，Transformer ！！

不愧是北理博士，强悍。。

211本无痛拿下蚂蚁60k的offer！！

讨论 XGBoost，太激烈了。。

腾讯算法岗，年包80w。。

面试字节算法岗，上岸！！！

面试幻方量化岗，考察太全面了。。。

一个强大算法模型，核支持向量机！！

字节一面，考察贼细。。

不愧是PCA，太强大！！

小米算法岗面试，差点就挂了。。。

不愧是Prophet 模型，太强了！！

超强！十大图像增强完全总结！！

字节算法专家，Kernel PCA分析太强了。。。

讨论T-SNE，脑子被榨干。。。

图解Numpy，这篇文章是真的强！

卷积神经网络数学原理解析

面试商汤算法岗，手握1篇顶会被嫌弃了。。。

不愧是北理博士，强悍。。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉