作者:第八星系-李智
邮箱:lizhi258147369@163.com
引言
作者说:鸽了很久的机器学习终于要开始了。由于篇幅、时间和精力等原因,逐句详解版还需要过几天才能制作好。
回归分析属于监督学习方法的一种,主要用于预测连续型目标变量,可以预测、计算趋势以及确定变量之间的关系等。
随机森林回归是一种将多颗决策树结合在一起的集成方法。因为随机森林具备随机性,通常比单棵决策树具有更加优良的泛化性能,能够减少模型的方差。
随机森林有个优点是对数据集的异常值不太敏感,并且不需要太多的参数调整,只有决策树棵树需要根据实验的参数进行获取。
随机森林回归使用MSE准则来构建单棵决策树,并且将所有决策树预测的平均值作为目标变量。
现在我们使用虚构的数据来定量衡量几个气象要素对臭氧的贡献。数据以txt格式存储。
导入数据
首先我们调用pandas的read_csv函数加载数据集。为了确保数据正确加载,先显示前5行。
import pandas as pdcolumns = ['t1000','r1000','u1000','v1000','blh','e','O3']df = pd.read_csv('D:\OneDrive\随机森林回归\DATA.txt', sep='\t', usecols=columns)df.head()
加载数据集以后,检查数据的维度,以确保数据是我们想要的数量,没有出错。
df.shape
数据符合预期。下一步,我们检查数据中是否存在缺失值。
df.isnull().sum()
数据不存在缺失值。
首先,我们可以创建一个散点图矩阵,以可视化数据集中不同特征之间的相关性。
为了绘制散点图矩阵,我们调用mlxtend库的scatterplotmatrix函数。
import matplotlib.pyplot as pltfrom mlxtend.plotting import scatterplotmatrixscatterplotmatrix(df.values, figsize=(100, 100), names=df.columns, alpha=0.5)plt.tight_layout()plt.show()
接下来,我们创建一个各变量之间的相关矩阵以量化线性关系。并绘制成热力图。
import numpy as npfrom mlxtend.plotting import heatmapcm = np.corrcoef(df.values.T)hm = heatmap(cm, row_names=df.columns, column_names=df.columns, figsize=(10, 10))plt.tight_layout()plt.show()
本文编辑:CL
回复:第八星系
获取进群方式
群内每天分享推文数据