机器学习与大模型的结合：用大模型做特征筛选

科技 2024-12-11 11:01 英国

数据挖掘的核心是是对海量数据进行有效的筛选和分析。传统上数据筛选依赖于数据驱动的方法，如包裹式、过滤式和嵌入式筛选。随着大模型的发展，本文将探讨如何利用大模型进行特征筛选。

unsetunset筛选思路unsetunset

数据驱动方法依赖于数据集中的样本点进行统计推断，而基于文本的方法需要描述性的上下文以更好地在特征和目标变量之间建立语义关联。

这种方法利用了大型语言模型（LLMs）中丰富的语义知识来执行特征选择。大模型将利用数据集描述（desd）和特征描述（desf），描述特征的重要性。

LLM生成的特征重要性得分（LLM-Score）
LLM生成的特征排名（LLM-Rank）
基于LLM的交叉验证筛选（LLM-Seq）

unsetunset实验设置unsetunset

模型：实验中使用了不同参数规模的LLMs，包括LLaMA-2（7B和13B参数）、ChatGPT（约175B参数）和GPT-4（约1.7T参数）。
比较方法：将基于LLM的特征选择方法与传统的特征选择基线方法进行比较，包括互信息过滤（MI）、递归特征消除（RFE）、最小冗余最大相关性选择（MRMR）和随机特征选择。
数据集：使用了多个数据集进行分类和回归任务的评估，包括Adult、Bank、Communities等。
实现细节：对于每个数据集，固定特征选择比例为30%，并在16-shot、32-shot、64-shot和128-shot的不同数据可用性配置下进行评估。使用下游L2惩罚的逻辑/线性回归模型来衡量测试性能，并使用AUROC和MAE作为评估指标。

unsetunset实验结果unsetunset

将LLM-based特征选择方法与传统的特征选择基线方法进行比较，包括LassoNet、LASSO、前向序贯选择、后向序贯选择、递归特征消除（RFE）、最小冗余最大相关性选择（MRMR）、基于互信息（MI）的过滤和随机特征选择。

发现1：在小规模数据集上，基于文本的特征选择方法比数据驱动的方法更有效。在几乎所有的LLM和任务中，基于文本的特征选择方法的性能都超过了数据驱动方法。
发现2：使用最先进的LLMs进行基于文本的特征选择，在每种数据可用性设置下都能与传统特征选择方法相媲美。
发现3：当样本数量增加时，使用LLMs的数据驱动特征选择会遇到困难。特别是当样本大小从64增加到128时，分类任务的性能显著下降。
发现4：与数据驱动特征选择相比，基于文本的特征选择显示出更强的模型规模扩展性。

GPT-4基于LLM-Score在folktables数据集上整体表现最佳，在MIMIC-IV数据集上显著优于LassoNet和随机特征选择基线。LLM-Score在选择前10%和30%的特征时，与最佳数据驱动基线的性能相媲美，且明显优于随机选择。在医疗保健等复杂领域，LLM-Score即使在没有访问训练数据的情况下，也能有效地进行特征选择。

unset参考文献unsetunset

https://arxiv.org/pdf/2408.12025
https://arxiv.org/pdf/2407.02694

Python 入门路线图（2024 极简无废话版）

科研图表可视化利器，交互式操作，与Matplotlib 无缝集成

机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

最新文章

我心目中最强的 10 个 Python 库

写代码这么多年，我依然觉得编程很美妙！

谷歌版Sora发布：最大对手竟是快手的「可灵」，OpenAI 最辣鸡

高中生手机写出2.5万行代码，网友：给小孩哥捐个电脑！

AI+行业，目前的答案只有一个词： Agent

LSTM之父：我也是注意力之父！遥遥领先Transformer 26年！

Cursor + Qwen2.5-Coder 开发一个网页应用，So easy！附代码

用 Python 把 Markdown 玩的明明白白

快速学会登上nature的热门算法，LSTM！

梅宏院士：当前 AI 存在三大问题，泡沫太大！以偏概全！期望过高！

机器学习与大模型的结合：用大模型做特征筛选

AI +《永乐大典》，1800部书在线读

Python 3.13 封神！改变 AI 和 ML 游戏规则

「普通博士生」和「顶级博士」的区别

【干货】7种常用数据分析模型和方法，建议收藏！

爷青回！人人影视宣布：将二十年数据开源分享

一段神奇的Python代码，拿走不谢

用大模型写年终总结，推荐三种方式

Python 入门路线图（2024 极简无废话版）

涨点神器！100个即插即用缝合模块【合集下载】

强烈建议尽快搞个软考证！（重大利好）

Python 和 R ，谁更厉害？

白嫖Cursor

雷军的大学时候的论文：不需要参考文献

原来概率论不只是数学，还是人生导师！

不是，现在都流行用Kaggle写论文了吗？

几个超酷的项目，已开源！

刚刚，吴恩达宣布，推出新的开源 Python 包

科研图表可视化利器，交互式操作，与Matplotlib 无缝集成

RAG还是微调，怎么选？

用 Excel 表格做出堪比动画软件效果的 AI 手绘讲解

用 Python 把 PDF 玩的明明白白

5G唯一受益者，何同学道歉了！我也“专门写了一个软件”！

史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

Cursor 完全实用教程之外，Cursor Rules 详解

人生苦短、程序员必备神器！从开发到部署的主流工具全景图

机器学习数据降维与可视化：t-SNE详解与实践【附代码】

用 R 复刻了一张图，附代码

快速学会登上nature的热门算法，LSTM！

值得开发者好好看一看的AI大模型入门教程（内含300道AI面试真题）

50K*16薪，进字节了！

教授何恺明在MIT的第二门课——《深度生成模型》，PPT陆续已出

机器学习进阶必备-10 个高效 Python 工具包完全指南

再见 EasyExcel ！

【赠】出书了，《破解深度学习》来了！

大模型发展方向，你绝对想不到！

机器学习数据预处理中的数据泄露问题！

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

涨点神器！100个即插即用缝合模块【合集下载】

手搓AI大模型应用获25万用户，辞职创业，收入不如摆摊，网友建议：重新进厂打工

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉