人工智能小白到高手：怎么都绕不开的独热编码（one-hot encoding）

科技 2024-12-13 19:31 山西

-推荐关注-

-正文-

什么是独热编码？
为什么机器学习需要独热编码？
为什么不用整数编码（integer encoding）？
独热编码的缺陷
独热编码的适用场景
代码

在机器学习和数据科学中，为算法准备数据与构建模型本身一样重要。一种常见的数据预处理技术是独热编码，它被广泛用于将分类数据转换为模型可以理解的数值格式。分类数据——如颜色、产品类型或用户偏好——对于大多数机器学习算法必须以数值形式表示。独热编码通过创建二进制向量，将类别转换为保留其意义而不引入意外关系的格式来实现这一点。

什么是独热编码？

简单来说，独热编码是将分类变量转化为一个二进制数组，每个类别用一个唯一的向量表示。假设有一个特征“颜色类型”，包含“红色”、“绿色”、“蓝色”三个类别，那么它们的独热编码分别是：

红色：[1, 0, 0]
黄色：[0, 1, 0]
绿色：[0, 0, 1]

每个二进制向量的元素代表一个可能的类别。如果变量在某一时刻只能属于一个类别，那么这一组中只有一个值会是 "1" 的状态。这被称为独热编码（one-hot encoding）……

为什么机器学习需要独热编码？

对于大多数传统的机器学习模型（如线性回归、支持向量机、神经网络等）无法直接处理非数值型数据（如字符串或类别标签），通常只能处理数值型特征。

独热编码的关键价值在于以下几点：

避免顺序性误解：许多分类变量（如“城市”）是无序的，用独热编码（one-hot encoding）可以避免模型错误地理解这些变量之间有大小或远近关系。
增强模型表现：通过为每个类别生成独立的二进制特征，独热编码（one-hot encoding）能让模型更准确地识别类别特征的独特性。

为什么不用整数编码（integer encoding）？

整数编码是指直接用整数来表示类别，例如：猫=1, 狗=2, 鸟=3。虽然简单，对于某些变量，这可能已经足够了。

但在机器学习中的一些场景中，存在以下问题：

引入虚假的顺序关系：模型可能错误地认为类别之间有顺序或大小的关系，比如“狗（2）”比“猫（1）”大，或者“狗（2）”比“鸟（3）”更接近。基于距离或权重的模型（如线性回归、支持向量机等）会因此产生偏差
导致模型性能下降：某些基于距离的算法（如 KNN）会因为这种虚假的顺序信息而计算错误的距离，影响模型的表现。

独热编码通过二进制的独立性彻底杜绝了这一风险。

独热编码的缺陷

尽管独热编码有诸多优点，但在某些场景下，它的局限性同样显而易见。

高维度问题：如果分类变量的类别数量（基数）非常多，独热编码会导致数据维度急剧增加。例如，当一个特征有1000个类别时，独热编码会生成一个1000维的稀疏向量。这不仅会显著增加计算成本，还可能引发“维度灾难”。
稀疏性问题：独热编码生成的向量大部分值是0，这种稀疏矩阵会导致内存占用变高，会增加计算复杂度，因为稀疏特征对某些机器学习算法的优化效果有限。
无法捕获类别间关系：独热编码认为每个类别是完全独立的，但现实中某些类别之间可能存在潜在的相似性。
比如我们经常使用的“余弦相似度”来度量这种相似，对于向量，它们的余弦相似度是它们之间夹角的余弦：
例如，“红色”和“粉色”可能更相近，由于任意两个不同词的独热向量之间的余弦相似度为0(独热编码生成的向量是正交的)，所以独热向量不能编码词之间的相似性
余弦相似度，见：人工智能小白到高手：余弦相似度（Cosine Similarity）的简单理解

面对独热编码的缺陷，研究者们开发了多种替代方法，其中一个比较常用的方法比如嵌入方法（Embeddings），将语义相似的数据放在一起，这样就能捕获类别间的关系。

独热编码的适用场景

独热编码在某些场景下，仍然是不可替代的选择：

低基数分类特征：当分类变量的类别较少时（如性别、星期几、颜色），独热编码的简单性和高效性使其成为首选。
对稀疏数据友好的算法：独热编码的结果通常是一个“稀疏”矩阵，意思是大多数数据是0，只有少数几项是1。比如，假设有1000个不同的颜色，如果一个人选择了“红色”，那么编码后的数据大部分是0，只有“红色”这一项是1，对于某些机器学习算法（比如决策树、逻辑回归、朴素贝叶斯），能很好地处理独热编码生成的稀疏特征。
深度学习输入：虽然深度学习更多使用嵌入层，但独热编码仍是嵌入层的前置步骤，尤其在文本分析任务中表现突出。
需避免顺序误解的场景：如果分类变量没有内在顺序（比如颜色：红色、绿色、蓝色），使用独热编码可以完全杜绝顺序性带来的模型误判。

代码

# 导入必要的库
from numpy import asarray  # 从numpy导入array数组功能
from sklearn.preprocessing import OneHotEncoder  # 从sklearn导入独热编码器

# 创建一个包含三种颜色的数组数据
data = asarray([['red'], ['green'], ['blue']])
print("原始数据：")
print(data)  # 打印原始数据

# 创建OneHotEncoder对象，设置sparse=False来获取密集矩阵
encoder = OneHotEncoder(sparse_output=False)

# 对数据进行独热编码转换
onehot = encoder.fit_transform(data)
print("\n独热编码后的数据（密集矩阵格式）：")
print(onehot)  # 打印编码后的结果

# 打印特征名称（分类）
print("\n特征名称：")
print(encoder.categories_)

输出：

原始数据：
[['red']
['green']
['blue']]
独热编码后的数据（密集矩阵格式）：
[[0. 0. 1.]
[0. 1. 0.]
[1. 0. 0.]]
特征名称：[array(['blue', 'green', 'red'], dtype='<U5')]

往日文章：

10分钟解决国内不能访问OpenAI API的一个方案
4 个关键的 AI 趋势 | 吴恩达在 Snowflake Build 2024 上的演讲大纲
智能体（AI Agent）的5个能力级别将带我们走向何方

--END--

AI取经路

踏上取经路，比抵达灵山更重要！ AI技术、 AI知识、 AI应用、人工智能、大语言模型

最新文章

谷歌对智能体的理解：白皮书《Agents》

从0到1开发AI Agent（智能体）（八）| 智能体3：通过Llamalndex实现检索增强生成（RAG）

入门GPT（二）| 词袋模型（Bag of Words）辅助提升餐厅满意度

RAG怎么面对用户的4级查询难度？微软给出方案！

入门GPT（一）| N-Gram带你了解自然语言处理（2）代码实现

入门GPT（一）| N-Gram 带你了解自然语言处理（1）

国产之光，DeepSeek V3大模型既便宜又好用，惊艳世界AI圈

LangChain实战 | OutputParser：让大模型输出从 “鸡肋” 变 “瑰宝” 的关键！

LangChain实战 | LangGraph 让你的 AI 项目从 “好” 变 “卓越”

Claude官方Anthropic建议：构建高效智能体 (Building effective agents)

从0到1开发AI Agent（七）| Plan-and-Execute 如何解决AI复杂任务

为什么提示词总出错？使用思维链（CoT）提升效果高达 78%！

10分钟了解大模型应用全貌 : 大模型应用架构（LLM application architecture）

CNNIC中国互联网络信息中心重磅发布《生成式人工智能应用发展报告（2024）》

怎么说大模型才会听：提示工程神器之少样本提示(Few-Shot Prompting)

怎么说大模型才会听：零样本提示(Zero-Shot Prompting)

从0到1开发AI Agent（智能体）（六）| 智能体1 ：通过LangChain中的ReAct框架实现自动定价

LangChain实战 | Tool Calling ：让AI真正动起来的关键技术

人工智能小白到高手：大模型通过 Function calling 沟通外部世界

斯坦福大学发布！《全球人工智能实力排行榜》 - 中美 AI 赛跑

一文说清楚什么是大模型LLMs的Token,全面了解钱的流向

一文说清楚什么是多模态大模型，与大模型有什么区别

人工智能小白到高手：怎么都绕不开的独热编码（one-hot encoding）

从0到1开发AI Agent（智能体）（五）：LlamaIndex 极速上手攻略

人工智能小白到高手：什么是线性回归

数字智能会取代生物智能吗？AI 教父 Geoffrey Hinton 你怎么看

从0到1开发AI Agent（智能体）（四）| LangChain 的快速入门

加速让企业落地"生成式AI"，53%的公司已经领先一步！

从0到1开发AI Agent（智能体）（三）| OpenAI API的快速入门

OpenAI 12天发布会狂欢开始了！第一天的重磅发布

给小朋友解释什么是人工智能、机器学习、深度学习、神经网络

人工智能深度学习的进化史：一场横跨80年的脑洞之旅

从0到1开发AI Agent（智能体）（二）| 智能体推理引擎ReAct框架的快速入门

10分钟解决国内不能访问OpenAI API的一个方案

AI时代，Java程序员不能不知道的两个框架

4 个关键的 AI 趋势 | 吴恩达在 Snowflake Build 2024 上的演讲大纲

智能体（AI Agent）的5个能力级别将带我们走向何方

从0到1开发AI Agent（智能体）（一）| 基于大模型的AI Agent技术框架

一文说清楚什么是AI大模型

为AI而生的向量数据库 - milvus(三) | 使用（1）

一个程序员的感恩节独白：写给那些代码里的温暖

人工智能小白到高手：Sentence-Transformers

一文说清楚人工智能的嵌入（Embedding）是什么

未来的手机是什么样子，AI赋能的全新体验，Mate 70系列的智慧亮点

为AI而生的向量数据库 - milvus(二) | 单机Standalone安装

人工智能小白到高手：余弦相似度（Cosine Similarity）的简单理解

Docker在Windows环境（WSL2）的安装

为AI而生的向量数据库 - milvus(一) | milvus是什么

从制造到医疗，行业大模型正重塑世界！- 腾讯研究院发布《行业大模型调研报告》

一文说清楚什么是AI Agent(智能体)

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉