数据精炼利器：Boruta算法进行特征筛选

文摘 2024-08-01 09:01 重庆

什么是特性选择？

特征选择是数据预处理和特征工程中的一个关键步骤。它的主要目标是从初始的特征集合中挑选出对预测任务最有用的特征，从而简化模型，减少过拟合，提高模型的泛化能力。特征选择的主要方法可以分为三类：

过滤法（Filter method）：通过统计指标如方差、相关性等来评估每个特征的重要性，然后选择得分最高的特征。这种方法简单快捷，但可能忽略特征之间的交互作用。
包裹法（Wrapper method）：通过训练模型并评估其性能来选择特征。常见的有前向选择、后向消除和递归特征消除等方法。虽然这种方法考虑了特征之间的交互作用，但计算成本较高。
嵌入法（Embedded method）：在模型训练过程中自动进行特征选择，例如LASSO回归中的L1正则化。这种方法在特征选择和模型训练间找到了平衡，具有较高的效率和效果。

什么是Boruta算法？

Boruta算法是一种基于随机森林的全局特征选择方法。它由Miron B. Kursa和Witold R. Rudnicki在2010年提出。该算法的核心思想是通过与随机生成的伪特征（shadow features）进行比较，来评估原始特征的重要性。具体来说，Boruta算法通过以下步骤来实现特征筛选：

生成伪特征：首先，将数据中的每个特征进行随机排列，生成与原始特征数量相同的伪特征。这些伪特征不包含任何有用信息，用于作为基准来评估原始特征的重要性。
构建随机森林模型：将原始特征和伪特征一起输入到随机森林模型中，计算每个特征的重要性。随机森林是一种基于决策树的集成学习方法，通过构建多个决策树来提高模型的稳定性和预测性能。
比较重要性：将原始特征的重要性与伪特征中的最高重要性进行比较。如果一个原始特征的重要性显著高于最高的伪特征重要性，则认为该特征是重要的；如果显著低于，则认为该特征是不重要的。
迭代过程：反复进行上述过程，直到所有特征都被明确分类为重要或不重要，或者达到预设的迭代次数。最终结果是一个包含所有重要特征的集合。

Boruta算法的优点

鲁棒性：Boruta算法通过随机森林模型进行特征重要性评估，具有较高的鲁棒性和稳定性。它能够处理高维数据，并且对噪声数据不敏感。
自动化：相比于传统的特征选择方法，Boruta算法能够自动化地完成特征筛选过程，无需人工干预，大大提高了效率。
全局视角：Boruta算法考虑了所有特征的交互作用和全局影响，避免了局部最优问题，能够更全面地识别出关键特征。
可解释性：通过与伪特征进行比较，Boruta算法的筛选过程直观明了，便于解释和理解。用户可以清晰地看到哪些特征被选中，哪些被淘汰，以及每个特征的重要性。

案例演示

安装依赖

!pip install Boruta

模型构建

rf_1 = RandomForestRegressor(n_jobs=-1, oob_score=True)feat_selector = BorutaPy(rf_1, n_estimators='auto', max_iter=100, random_state=42)feat_selector.fit(X.values, y)

精度评价

mse_selected = mean_squared_error(y_test, y_pred_selected)rmse_selected = mean_squared_error(y_test, y_pred_selected, squared=False)mae_selected = mean_absolute_error(y_test, y_pred_selected)r2_selected = r2_score(y_test, y_pred_selected)
print(f"Mean Squared Error with selected features: {mse_selected}")print(f"Root Mean Squared Error with selected features: {rmse_selected}")print(f"Mean Absolute Error with selected features: {mae_selected}")print(f"R^2 with selected features: {r2_selected}")print("---------------------------------------------------")rf_all = RandomForestRegressor(n_jobs=-1, max_depth=5, random_state=42)rf_all.fit(X_train, y_train)y_pred_all = rf_all.predict(X_test)
mse_all = mean_squared_error(y_test, y_pred_all)rmse_all = mean_squared_error(y_test, y_pred_all, squared=False)mae_all = mean_absolute_error(y_test, y_pred_all)r2_all = r2_score(y_test, y_pred_all)
print(f"Mean Squared Error with all features: {mse_all}")print(f"Root Mean Squared Error with all features: {rmse_all}")print(f"Mean Absolute Error with all features: {mae_all}")print(f"R^2 with all features: {r2_all}")

可以看到，使用Boruta选择的特征进行建模，模型在所有评估指标上均优于使用所有特征的模型。

公众号后台回复【240801】，即可获取完整的代码及示例数据！

喜欢也行，不喜欢也行；如果觉得有用处的话，还请点点右下角的赞/在看，记得关注我哟！

http://mp.weixin.qq.com/s?__biz=MzI0MDIxNDYyMg==&mid=2247488596&idx=1&sn=ecf3451c15819256c3a46fbf1df018d3

遥感地理阁

专注于地理学、遥感科学、人工智能等领域，合作交流、成果分享等事宜请加Y2theK

最新文章

说句实话，研究生搞科研，哪有什么真正的创新点…

频发顶刊！广义线性模型（GLM）详解及地学案例演示

顶刊都在用的方法：标准化与非标准化回归系数全解析！

频发遥感顶刊！这个新方向杀疯了，抓紧搞起来

文献分享|基于机器学习与遥感影像实现水质监测及影响因素分析

又一篇遥感顶刊！这个idea简直“ 杀疯了 ” ....

文献分享 | Int J Appl Earth Obs：评估土地利用和覆盖变化对湖泊富营养化时空影响的综合框架

数据精炼利器：Boruta算法进行特征筛选

2024年，人工智能行业哪些证书权威？

文献分享 | RSE：VIIRS观测中国湖泊长达十年的叶绿素a数据记录

时空地理加权回归（GTWR）与多尺度时空地理加权回归（MGTWR）——附代码

ChatGPT与深度学习在地理学中的创新应用：助力数据分析、模型构建与智能研究

如何用熵值法计算栅格数据的权重【附代码】

什么是数据包络分析（DEA），在地学研究中有什么应用（附代码）

必学！手把手教你绘制中华人民共和国行政区划图

【毕业季】谈谈GIS与社会热点相结合的论文选题

高效论文写作技巧大揭秘！ChatGPT/GPT4科研实践与论文写作，掌握最新AI大模型应用！

如何利用K-means算法实现遥感图像分类

如何基于WebGIS与高德地图API构建全球地震热力图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉