机器学习-随机森林回归(上)

文摘   科学   2024-07-11 22:12   广东  

作者:第八星系-李智

邮箱:lizhi258147369@163.com


01

引言


作者说:鸽了很久的机器学习终于要开始了。由于篇幅、时间和精力等原因,逐句详解版还需要过几天才能制作好。


回归分析属于监督学习方法的一种,主要用于预测连续型目标变量,可以预测、计算趋势以及确定变量之间的关系等。

随机森林回归是一种将多颗决策树结合在一起的集成方法。因为随机森林具备随机性,通常比单棵决策树具有更加优良的泛化性能,能够减少模型的方差。

随机森林有个优点是对数据集的异常值不太敏感,并且不需要太多的参数调整,只有决策树棵树需要根据实验的参数进行获取。

随机森林回归使用MSE准则来构建单棵决策树,并且将所有决策树预测的平均值作为目标变量。

现在我们使用虚构的数据来定量衡量几个气象要素对臭氧的贡献。数据以txt格式存储。


02

导入数据





首先我们调用pandas的read_csv函数加载数据集。为了确保数据正确加载,先显示前5行。

import pandas as pdcolumns = ['t1000','r1000','u1000','v1000','blh','e','O3']df = pd.read_csv('D:\OneDrive\随机森林回归\DATA.txt',                  sep='\t',                 usecols=columns)df.head()

加载数据集以后,检查数据的维度,以确保数据是我们想要的数量,没有出错。

df.shape

数据符合预期。下一步,我们检查数据中是否存在缺失值。

df.isnull().sum()

数据不存在缺失值。

03

可视化数据集的重要特征




首先,我们可以创建一个散点图矩阵,以可视化数据集中不同特征之间的相关性。

为了绘制散点图矩阵,我们调用mlxtend库的scatterplotmatrix函数。

import matplotlib.pyplot as pltfrom mlxtend.plotting import scatterplotmatrixscatterplotmatrix(df.values, figsize=(100, 100),                   names=df.columns, alpha=0.5)plt.tight_layout()plt.show()

接下来,我们创建一个各变量之间的相关矩阵以量化线性关系。并绘制成热力图。

import numpy as npfrom mlxtend.plotting import heatmapcm = np.corrcoef(df.values.T)hm = heatmap(cm, row_names=df.columns, column_names=df.columns, figsize=(10, 10))plt.tight_layout()plt.show()



本文编辑:CL


回复:第八星系

获取进群方式

群内每天分享推文数据




第八星系人造大气理论爱好者
记录与交流python、matlab等科研工具。记录与交流大气科学的学科知识
 最新文章