米哈游算法岗，脑子被榨干。。

教育 2024-10-11 19:16 北京

Hi，我是Johngo~

这几天有同学面试了米哈游算法岗位。

由于是刚刚毕业，一面一直是基础理论，持续一个半小时。

咱们今天分享一个其中的一个面试点：支持向量回归~

支持向量回归（Support Vector Regression, SVR）是机器学习中的一种回归算法。简单来说，它是通过找到一条最佳的直线（或曲线）来预测数据的趋势或结果，但它不只是简单地找最合适的直线，而是有点“宽容”地忽略一些离直线较远的数据点。

「什么是回归？」

我们先理解一下回归的概念。回归是一种预测连续值的方法。比如：

你想预测明天的气温
你想根据房子的面积预测房价

这些情况需要使用回归算法，因为它们的结果是一个连续的数值。

「什么是支持向量回归？」

支持向量回归的核心思想是：找到一条直线，尽量靠近所有的样本点，但允许有些点偏离直线，只要偏离的程度在我们设定的允许范围内就可以。这条线代表了我们对未来数据的预测。

举个简单的例子：

「假设场景」

假设一位菜农，有一系列的数据，显示了过去几天不同天气条件下的西红柿产量。想根据这些数据预测未来几天的西红柿产量。

数据看起来可能是这样：

温度 20°C，产量 100 公斤
温度 22°C，产量 110 公斤
温度 25°C，产量 130 公斤
温度 30°C，产量 150 公斤

你可以把这些数据点画在一个图上，横轴是温度，纵轴是产量。然后你希望找到一条直线（或者曲线），可以帮助你预测某个温度下的产量。

「支持向量回归的做法」

支持向量回归会试图在这些数据点中找到一条“最佳的直线”。它会试图让大部分的数据点尽可能接近这条线，但它不是严格要求每个点都在直线上，而是允许某些数据点稍微偏离这条线。

支持向量回归和其他回归的不同之处在于：

宽容度：支持向量回归允许某些点不在预测线附近，只要它们的误差在我们设定的范围内（这叫做“epsilon”）。比如，你可以设定“允许的误差范围是±10公斤”，只要预测的产量和实际产量之间的误差不超过10公斤，就算是可以接受的。
边界上的数据点：在支持向量回归中，决定最终回归线的其实是那些“刚好在边界上的数据点”（叫做支持向量）。这些数据点会帮助确定预测线的位置和方向。

「更具体一点的例子」

假设有以下温度和产量数据点：

温度 18°C，产量 90 公斤
温度 21°C，产量 105 公斤
温度 23°C，产量 115 公斤
温度 26°C，产量 135 公斤
温度 29°C，产量 140 公斤
温度 32°C，产量 160 公斤

希望预测30°C的温度下，产量是多少。

使用支持向量回归算法，它会画出一条预测线，并且允许有些点（比如产量 90 公斤和160 公斤的点）稍微偏离这条线，因为它们可能是特殊情况（比如那天温度虽然正常，但西红柿生长状况因为其他原因不佳）。

最终，支持向量回归预测出的30°C时的产量，可能是148公斤左右，这条线没有特别追求让所有数据点都完全对齐，而是追求了整体趋势的合理性。

支持向量回归

在支持向量机（SVM）的基础上，支持向量回归（SVR）通过引入一个ε-不敏感损失函数（ε-insensitive loss function）来处理回归问题。目标是找到一个函数 ( f(x) )，它不仅能很好地拟合数据，还能尽可能使模型具有一定的“宽容度”。

1. 支持向量回归的基本公式

假设给定数据集，其中是特征，是标签。SVR的目标是找到一个函数：

使得它能最小化以下目标函数（损失函数）：

这个目标函数表示要尽量使的范数最小，从而得到一个平滑的预测函数。

2. ε-不敏感损失函数

为了处理回归问题，SVR引入了ε-不敏感损失函数，它允许预测值和实际值之间的误差在某个阈值内不被计算为损失。即，当预测值和实际值之间的误差小于 ε 时，不会产生惩罚。

公式如下：

3. 软间隔

为了处理噪声或异常值，SVR引入了松弛变量和，用于允许某些数据点位于ε以外的区域，但要对其进行惩罚。最终目标函数变为：

其中，是惩罚系数，控制了对错误预测的惩罚力度。

4. 约束条件

约束条件如下：

通过拉格朗日乘子法和二次规划的求解，我们最终可以得出SVR的对偶形式，从而得到支持向量和回归函数的具体解。

咱们使用California Housing数据集，并进行多维特征的回归预测。

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns

# 加载California Housing数据集
housing = fetch_california_housing()
X = housing.data
y = housing.target

# 数据标准化处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 定义SVR模型
svr = SVR(kernel='rbf', C=100, epsilon=0.1)
svr.fit(X_train, y_train)

# 预测
y_pred_train = svr.predict(X_train)
y_pred_test = svr.predict(X_test)

# 计算评估指标
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

print(f"训练集MSE: {mse_train:.3f}, R2: {r2_train:.3f}")
print(f"测试集MSE: {mse_test:.3f}, R2: {r2_test:.3f}")

# 绘制真实值与预测值的对比图（测试集）
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred_test, color='b', alpha=0.6, label='Predicted vs True')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='r', lw=2, label='Ideal Fit')
plt.xlabel('True Values')
plt.ylabel('Predicted Values')
plt.title('SVR Predicted vs True Values (Test Set)')
plt.legend()
plt.grid(True)
plt.show()

# 残差分析
residuals = y_test - y_pred_test
plt.figure(figsize=(10, 6))
sns.histplot(residuals, kde=True, color='purple')
plt.title('Residuals Distribution (Test Set)')
plt.xlabel('Residuals')
plt.grid(True)
plt.show()

# 特征重要性分析：基于SVR的支持向量
support_vectors = svr.support_
plt.figure(figsize=(10, 6))
plt.scatter(X_train[support_vectors][:, 0], X_train[support_vectors][:, 1], c='r', s=50, label='Support Vectors')
plt.title('Support Vectors (2D Visualization)')
plt.xlabel(housing.feature_names[0])
plt.ylabel(housing.feature_names[1])
plt.legend()
plt.grid(True)
plt.show()

数据集：我们使用了 fetch_california_housing() 函数来加载 California Housing 数据集，该数据集有8个特征，用于预测房价中位数。
数据标准化：对特征进行标准化处理，使得不同特征的尺度相似，便于 SVM 模型的训练。
SVR模型：使用了RBF核函数的支持向量回归（SVR）模型，设置 C=100，epsilon=0.1。
评估：使用均方误差（MSE）和决定系数（R²）来评估模型在训练集和测试集上的表现。

腾讯二面，足足80分钟

不愧是字节，面试太细致

字节三面，当场想给offer！~

如果有用，记得点赞~

超全整理，免费给大家！~

2024，建议大家必须要学习，学习和工作的效率提高5~10倍不止！！！

chatgpt、midjourney、AI工具、案例等。。。

1、chatgpt 超全的整理

2、midjourney 整理的教程

3、sd 整理的教程

4、AI项目汇总 & AI工具

5、chatgpt实际的案例

还有超多干货！！！！！！

私信，备注“AIGC”即可~

http://mp.weixin.qq.com/s?__biz=Mzg4MjY2NTMyOA==&mid=2247515079&idx=1&sn=e4a74246e2b54167d50b2f65c15916a1

Johngo学长

机器学习算法和大数据重度研究者！持续产出机器学习、大数据、Python、LeetCode干货～

最新文章

留学求职的无敌Buff，Kaggle竞赛到底有多厉害？

AI 起薪已超80w。。。

薅优惠GPU算力机会来了！

目标检测的未来是什么？

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

首次明确！国务院: 博士学位论文，不再非写不可

手撕自动驾驶算法—无迹卡尔曼滤波

小米大模型，微调、部署与最佳实践！！

【深度学习】5种神经网络常见的求导！

收藏 | 机器学习特征选择方法总结

魔改LSTM！性能直逼Transformer和Mamba！！

面试小米，惨不忍睹。。。

Jupyter Notebook的10个常用扩展介绍

机器学习 4 个超参数搜索方法、代码

美团40k，高校8k，怎么选择。。

强烈推荐一个“可捞偏门但不违法”的副业（50K+）

大厂学习、面试真题解读

总包70w+，真的很强！！

发一篇顶会真不难！！！

通俗解释机器学习中的召回率、精确率、准确率

1885页学习资料。一本在手，python不愁！

60 个神级 VS Code 插件：本文将会以优化外观，功能扩展，提升编码效率，代码格式化，其它插件分类来进行介绍。

突破100个强大算法模型！！

IT 巨头或裁员近 6000 人，每人最高赔偿 223 万

期望3w，给你2w，接受吗？

入职美团一周，那叫一个爽！

离谱！裁员裁出新高度了。。

深入剖析PyPy，解锁Python比C还快的秘诀

我们还需要Transformer中的注意力吗？

我985毕业10年，年薪200万；室友成常委副市长。。。

15 个目标检测开源数据集汇总

SCNet：利用全 1X1 卷积实现轻量图像超分辨率

浙大高飞老师：读博士有多苦？

我们真的需要把训练集的损失降到零吗？

导师放养，自己一人发顶会！！

开源大模型书来了！449页pdf！

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

突破100个强大算法模型！！

终于理解线性代数，矩阵与图竟然存在等价关系

又一院士被“除名”！院士终生制，没了？

突破100个强大算法模型！！

为什么我们的研究生提不出问题？

图解深度神经网络的架构

字节70K算法岗，211本无痛拿下！！

如何用 1024 张显卡训练一个模型。。

节后开工接私活，赚爆！！

中国最“孤独”的985高校！校长曾正面回应人才流失严重等问题。。

大模型就看这篇就够了！！

米哈游算法岗，脑子被榨干。。

Geoffrey Hinton：我怎么能确定这不是一个恶作剧电话呢？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉