人工智能小白到高手:怎么都绕不开的独热编码(one-hot encoding)

科技   2024-12-13 19:31   山西  

-推荐关注-

-正文-
  • 什么是独热编码?

  • 为什么机器学习需要独热编码?

  • 为什么不用整数编码(integer encoding)?

  • 独热编码的缺陷

  • 独热编码的适用场景

  • 代码


在机器学习和数据科学中,为算法准备数据与构建模型本身一样重要。一种常见的数据预处理技术是独热编码,它被广泛用于将分类数据转换为模型可以理解的数值格式。分类数据——如颜色、产品类型或用户偏好——对于大多数机器学习算法必须以数值形式表示。独热编码通过创建二进制向量,将类别转换为保留其意义而不引入意外关系的格式来实现这一点。

什么是独热编码?

简单来说,独热编码是将分类变量转化为一个二进制数组,每个类别用一个唯一的向量表示。假设有一个特征“颜色类型”,包含“红色”、“绿色”、“蓝色”三个类别,那么它们的独热编码分别是:

  • 红色:[1, 0, 0]
  • 黄色:[0, 1, 0]
  • 绿色:[0, 0, 1]

每个二进制向量的元素代表一个可能的类别。如果变量在某一时刻只能属于一个类别,那么这一组中只有一个值会是 "1" 的状态。这被称为独热编码(one-hot encoding)……

为什么机器学习需要独热编码?

对于大多数传统的机器学习模型(如线性回归、支持向量机、神经网络等)无法直接处理非数值型数据(如字符串或类别标签),通常只能处理数值型特征。

独热编码的关键价值在于以下几点

  1. 避免顺序性误解:许多分类变量(如“城市”)是无序的,用独热编码(one-hot encoding)可以避免模型错误地理解这些变量之间有大小或远近关系。
  2. 增强模型表现:通过为每个类别生成独立的二进制特征,独热编码(one-hot encoding)能让模型更准确地识别类别特征的独特性。

为什么不用整数编码(integer encoding)?

整数编码是指直接用整数来表示类别,例如:猫=1, 狗=2, 鸟=3。虽然简单,对于某些变量,这可能已经足够了。

但在机器学习中的一些场景中,存在以下问题:

  1. 引入虚假的顺序关系:模型可能错误地认为类别之间有顺序或大小的关系,比如“狗(2)”比“猫(1)”大,或者“狗(2)”比“鸟(3)”更接近。基于距离或权重的模型(如线性回归、支持向量机等)会因此产生偏差
  2. 导致模型性能下降:某些基于距离的算法(如 KNN)会因为这种虚假的顺序信息而计算错误的距离,影响模型的表现。

独热编码通过二进制的独立性彻底杜绝了这一风险。

独热编码的缺陷

尽管独热编码有诸多优点,但在某些场景下,它的局限性同样显而易见。

  1. 高维度问题:如果分类变量的类别数量(基数)非常多,独热编码会导致数据维度急剧增加。例如,当一个特征有1000个类别时,独热编码会生成一个1000维的稀疏向量。这不仅会显著增加计算成本,还可能引发“维度灾难”。

  2. 稀疏性问题:独热编码生成的向量大部分值是0,这种稀疏矩阵会导致内存占用变高,会增加计算复杂度,因为稀疏特征对某些机器学习算法的优化效果有限。

  3. 无法捕获类别间关系:独热编码认为每个类别是完全独立的,但现实中某些类别之间可能存在潜在的相似性。

    比如我们经常使用的“余弦相似度”来度量这种相似,对于向量 ,它们的余弦相似度是它们之间夹角的余弦:

    例如,“红色”和“粉色”可能更相近,由于任意两个不同词的独热向量之间的余弦相似度为0(独热编码生成的向量是正交的),所以独热向量不能编码词之间的相似性

    余弦相似度,见:人工智能小白到高手:余弦相似度(Cosine Similarity)的简单理解

面对独热编码的缺陷,研究者们开发了多种替代方法,其中一个比较常用的方法比如嵌入方法(Embeddings),将语义相似的数据放在一起,这样就能捕获类别间的关系。

独热编码的适用场景

独热编码在某些场景下,仍然是不可替代的选择:

  1. 低基数分类特征:当分类变量的类别较少时(如性别、星期几、颜色),独热编码的简单性和高效性使其成为首选。
  2. 对稀疏数据友好的算法:独热编码的结果通常是一个“稀疏”矩阵,意思是大多数数据是0,只有少数几项是1。比如,假设有1000个不同的颜色,如果一个人选择了“红色”,那么编码后的数据大部分是0,只有“红色”这一项是1,对于某些机器学习算法(比如决策树、逻辑回归、朴素贝叶斯),能很好地处理独热编码生成的稀疏特征。
  3. 深度学习输入:虽然深度学习更多使用嵌入层,但独热编码仍是嵌入层的前置步骤,尤其在文本分析任务中表现突出。
  4. 需避免顺序误解的场景:如果分类变量没有内在顺序(比如颜色:红色、绿色、蓝色),使用独热编码可以完全杜绝顺序性带来的模型误判。

代码

# 导入必要的库
from numpy import asarray  # 从numpy导入array数组功能
from sklearn.preprocessing import OneHotEncoder  # 从sklearn导入独热编码器

# 创建一个包含三种颜色的数组数据
data = asarray([['red'], ['green'], ['blue']])
print("原始数据:")
print(data)  # 打印原始数据

# 创建OneHotEncoder对象,设置sparse=False来获取密集矩阵
encoder = OneHotEncoder(sparse_output=False)

# 对数据进行独热编码转换
onehot = encoder.fit_transform(data)
print("\n独热编码后的数据(密集矩阵格式):")
print(onehot)  # 打印编码后的结果

# 打印特征名称(分类)
print("\n特征名称:")
print(encoder.categories_)

输出:

原始数据:
[['red']
['green']
['blue']]

独热编码后的数据(密集矩阵格式):
[[0. 0. 1.]
[0. 1. 0.]
[1. 0. 0.]]

特征名称:[array(['blue', 'green', 'red'], dtype='<U5')]



往日文章:

--END--

AI取经路
踏上取经路,比抵达灵山更重要! AI技术、 AI知识 、 AI应用 、 人工智能 、 大语言模型
 最新文章