机器学习-随机森林回归（下）

文摘科学 2024-07-11 22:12 广东

作者：第八星系-李智

邮箱：lizhi258147369@163.com

训练模型

首先我们将6个气象要素设置成预测（解释）变量，或者叫特征。

臭氧设置为响应变量，或者叫目标变量。

然后拆分数据集，前70%的数据作为训练集，后30%作为测试集。

from sklearn.metrics import mean_squared_errorfrom sklearn.metrics import mean_absolute_errorfrom sklearn.metrics import r2_scorefrom sklearn.model_selection import train_test_splitimport numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfrom sklearn.decomposition import PCAfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.model_selection import train_test_splitimport seaborn as snsfrom six import StringIOfrom IPython.display import Imagefrom sklearn.pipeline import Pipelinefrom sklearn.preprocessing import StandardScalerfrom sklearn.tree import export_graphvizimport ostarget = 'O3'features = df.columns[df.columns != target]X = df[features].valuesy = df[target].valuesX = df.drop(columns=['O3'])y = df['O3']X_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.3, random_state=123)

接下来，我们查看数据是否符合正态分布。

# 正偏态分布图sns.distplot(df['O3'], color='green')plt.show()print("偏度为 %f " % df['O3'].skew())print("峰度为 %f" % df['O3'].kurt())

我们开始训练模型，并查看其平均绝对误差（MAE）与决定系数（R2）。

from sklearn.ensemble import RandomForestRegressorforest = RandomForestRegressor(n_estimators=100,                                criterion='squared_error',                                random_state=1,                                n_jobs=-1)forest.fit(X_train, y_train)y_train_pred = forest.predict(X_train)y_test_pred = forest.predict(X_test)mae_train = mean_absolute_error(y_train, y_train_pred)mae_test = mean_absolute_error(y_test, y_test_pred)print(f'MAE train: {mae_train:.2f}')print(f'MAE test: {mae_test:.2f}')r2_train = r2_score(y_train, y_train_pred)r2_test =r2_score(y_test, y_test_pred)print(f'R^2 train: {r2_train:.2f}')print(f'R^2 test: {r2_test:.2f}')

测试集的结果明显不如训练集

我们再看看残差

x_max = np.max([np.max(y_train_pred), np.max(y_test_pred)])x_min = np.min([np.min(y_train_pred), np.min(y_test_pred)])fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(7, 3), sharey=True)ax1.scatter(y_test_pred, y_test_pred - y_test,            c='limegreen', marker='s', edgecolor='white',            label='Test data')ax2.scatter(y_train_pred, y_train_pred - y_train,            c='steelblue', marker='o', edgecolor='white',            label='Training data')ax1.set_ylabel('Residuals')for ax in (ax1, ax2):    ax.set_xlabel('Predicted values')    ax.legend(loc='upper left')    ax.hlines(y=0, xmin=x_min-100, xmax=x_max+100, color='black', lw=2)plt.tight_layout()#plt.savefig('figures/09_16.png', dpi=300)plt.show()

预测的残差并非完全随机分布在零中心点周围，说明该模型无法捕获所有的解释性信息。

得分一般

score = forest.score(X_test, y_test)print('随机森林模型得分： ', score)

预测值与真实值偏差还是明显的，预测值明显偏小

y_validation_pred = forest.predict(X_test)plt.figure()plt.plot(np.arange(1000), y_test[:1000], "go-", label="True value")plt.plot(np.arange(1000), y_validation_pred[:1000], "ro-", label="Predict value")plt.title("True value And Predict value")plt.legend()plt.show()

我们再从其它角度看看回归性能

# 评估回归性能from sklearn import metricsprint('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_validation_pred))print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_validation_pred))print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_validation_pred)))df_output = pd.DataFrame(columns=['t1000','r1000','u1000','v1000','blh','e', 'y_true', 'y_pred'])df_output['t1000'] = X_test['t1000']df_output['r1000'] = X_test['r1000']df_output['u1000'] = X_test['u1000']df_output['v1000'] = X_test['v1000']df_output['blh'] = X_test['blh']df_output['e'] = X_test['e']df_output['y_true'] = y_testdf_output['y_pred'] = y_validation_preddf_output.to_excel('result_Y_validation.xlsx')

最后，我们看看各气象要素对臭氧的贡献率

pipe = Pipeline([('scaler', StandardScaler()), ('reduce_dim', PCA()),                 ('regressor', forest)])with open('./wine.dot','w',encoding='utf-8') as f:    f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)    f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)col = list(X_train.columns.values)importances = forest.feature_importances_x_columns = ['t1000','r1000','u1000','v1000','blh','e']indices = np.argsort(importances)[::-1]list01 = []list02 = []for f in range(X_train.shape[1]):    print("%2d) %-*s %f" % (f + 1, 30, col[indices[f]], importances[indices[f]]))    list01.append(col[indices[f]])    list02.append(importances[indices[f]])from pandas.core.frame import DataFramec = {"columns": list01, "importances": list02}data_impts = DataFrame(c)data_impts.to_excel('data_importances.xlsx')importances = list(forest.feature_importances_)feature_list = list(X_train.columns)feature_importances = [(feature, round(importance, 2)) for feature, importance in zip(feature_list, importances)]feature_importances = sorted(feature_importances, key=lambda x: x[1], reverse=True)import matplotlib.pyplot as pltx_values = list(range(len(importances)))print(x_values)plt.bar(x_values, importances, orientation='vertical')plt.xticks(x_values, feature_list, rotation=96)plt.ylabel('Importance')plt.xlabel('Variable')plt.title('Variable Importances')plt.show()

本文编辑：CL

回复：第八星系

获取进群方式

进群可获取完整代码脚本

第八星系人造大气理论爱好者

记录与交流python、matlab等科研工具。记录与交流大气科学的学科知识

最新文章

python基于站点经纬度绘制降水空间散点分布图

关于本公众号后台不回复的说明及加入交流群的方式

code详解 | 用python实现气象局降水相态图的绘制

两种降水站点数据克里金插值及可视化方法

三分钟学会气象要素六边形分布绘制

Python|基于python利用多年降水日数据计算逐年逐季节各站点降水日数

利用MATLAB求臭氧MDA8数据第90百分位数

重磅！2024中国大学大气科学、应用气象学等专业排名

重磅！北京师范大学地表过程与资源生态国家重点实验室段建平、效存德等在 BAMS 发表最新研究进展

TP-PROFILE：监测第三极对流层大气热动力结构的观测网

利用Python计算质量流函数（MSF）表征哈德来环流

数据文章|三种不同大涡模式模拟的浅对流数据集

小波系数实部等值线图和小波系数方差图的绘制

对于生活在难民营中的三位女性来说，极端天气意味着什么？

在正与严酷夏季作斗争的巴基斯坦，每天都有上百人在卡拉奇死去

机器学习-随机森林回归（上）

机器学习-随机森林回归（下）

深度学习 | N卡pytorch框架GPU版本安装

Linux基础教程|ip地址&主机名&配置固定IP

Python读取 .txt 文件绘制温度-盐度-溶解氧垂直剖面图

多Y轴柱状图（以3Y轴为例）

MATLAB绘制柱状剖面组合图

Python读取.mat数据并绘制1950~2019年的nino3.4时间序列

Matlab进阶绘图-方块热图灵活版

MATLAB|编辑器打开脚本无代码的解决措施

深度学习|安装图神经网络必备神器PyTorch Geometric

Linux基础教程|ip地址&主机名&配置固定IP

如何绘制wrfout文件的垂直速度变量

机器学习 | 第一部分：引言与基础 1

利用Python计算质量流函数（MSF）表征哈德来环流

基于python自动定时从天擎下载中国气象局全球天气模式CMA-GFS下发产品-东北半球分析产品并插值到站点且生成.csv文件上

雷达系列：必须更新！测试cinrad最新更新的read_auto

刘海龙团队|南海中尺度涡轨迹可预报性期限研究

Python|格点数据插值到站点：最邻近插值和双三次插值算法

机器学习 | 第一部分：引言与基础 1

关于本公众号后台不回复的说明及加入交流群的方式

Matlab--EOF分析

MATLAB小白入门04-03—简单折线图

预出版|基于长期观测的二维视频滴谱仪对西藏羊八井地区降雨微物理特征的研究

CMORPH降水数据下载

深度学习|安装图神经网络必备神器PyTorch Geometric

关于本公众号后台不回复的说明及加入交流群的方式

机器学习 | 第一部分：引言与基础 2

MATLAB 绘制夏季海表流场

中国大气复合污染专题| 不同气象条件下前体物减排控制大气污染的有效性

常见地图白化方法（二）

两种micaps站点数据的简单绘制方法

初伏-未晓雨先骤，过朝风更鲜。

关于本公众号后台不回复的说明及加入交流群的方式

在Windows系统中安装Git

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉