1. 引言
California Housing Dataset
),这是一个更大、更现代的数据集,比传统的波士顿房价数据集更具代表性。2. 所需库
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
sklearn.datasets
,用于数据预处理的train_test_split
和StandardScaler
,以及用于建模的LinearRegression
。此外,我们还将使用matplotlib
进行可视化。3. 加载与预处理数据
# 加载加州房价数据集
california = fetch_california_housing()
X = california.data
y = california.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
4. 构建与训练回归模型
LinearRegression
模型进行训练。线性回归模型是预测连续值的经典方法,它假设特征与目标值之间存在线性关系。# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测测试集
y_pred = model.predict(X_test)
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
# 计算R²得分
r2 = r2_score(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')
## Mean Squared Error: 0.56
print(f'R² Score: {r2:.2f}')
## R² Score: 0.58
6. 可视化预测结果
# 可视化实际值与预测值
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, color='blue', alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.title('Actual vs Predicted')
plt.show()
7. 总结
scikit-learn
库进行线性回归分析,使用加州房价数据集进行预测,并通过可视化手段评估模型的表现。你可以将这个方法应用到其他回归任务中,并根据需要进一步调整和优化模型。希望这篇文章对你有所帮助!“跟谁学大模型?国内TOP级【紫东太初】团队亲临授课
2024年9月26日-28 日武汉市/线上直播同步
国内权威团队
中国科学院自动化研究所,以智能科学与技术为主要定位,是中国科学院率先布局成立的“人工智能创新研究院”的总体牵头单位,是我国最早开展智能科学与技术基础理论、关键技术和创新性应用研究的科研机构,也是国内首个“人工智能学院”牵头承办单位。
学习保障,全程无忧
我们深知您对专业提升的重视与投入,因此,我们精心为您打造全方位的服务体系,确保您的学习体验安心、省心。
报销无忧
我们提供齐全的报销文件包,包括税务发票,红头文件等,助您高效完成报销流程。
售后保障
无论您在报名、参会过程中遇到任何疑问或困难,我们都将及时响应,全力协助解决,让您全身心专注于学习本身。
灵活学习,随需而选
无论您选择线上还是线下参与,我们都已为您规划好便捷的学习路径;同时参加线下课程将免费获赠录播。