机器学习中熵、信息熵、信息增益的基本介绍

文摘其他 2024-11-11 08:39 湖北

在学习机器学习模型的时候，经常遇到‘熵’这个概念，信息熵、信息增益、决策树剪枝等都与熵有关。

1.熵的基本概念

熵（entropy）泛指某些物质系统状态的一种量度，某些物质系统状态可能出现的程度。熵的概念是由德国物理学家克劳修斯于1865年所提出。最初是用来描述“能量退化”的物质状态参数之一，在热力学中有广泛的应用。熵的本质是一个系统“内在的混乱程度”。

如果用实际日常生活中举例，熵就是来衡量一种不确定性，熵越大，不确定性越高。如果某人去李宁旗舰店一定会买鞋子，他买到李宁的鞋子概率为100%，不确定性为0，熵也为0。

2.信息熵

1948年，香农提出了“信息熵”的概念，用来对信息的量化度量，来量化信息的不确定性程度。如果一个选择的可能性如下：[yes,yes,no,no,no]

其对应的信息熵公式为：

底数一般取2或者e，本例后面取2.

上式信息熵可以算出结果为：0.97

3.信息增益

信息增益，是指按特征变量把原数据集进行分类，新的信息熵是否相较于之前的信息熵有减少。往往新的信息熵减少了，说明该分类有意义。假如有数据集:

[[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']]

如果不拆分信息熵为0.97。

按第一个变量拆分为两个数据集。

[[1,1,'yes'],[1,1,'yes'],[1,0,'no']]和[[0,1,'no'],[0,1,'no']]

分类后第一个数据集的信息熵为：

其结果为：0.92

分类后第二个数据集的信息熵为：

注：结果只有一个选择的数据集信息熵为0 其结果为：0

可见按第一个变量拆分数据集，其信息熵下降，混乱程度降低。其对应的信息增益为:

0.97-0.551=0.42

4.python代码实现

拆分、信息熵、信息增益的代码实现如下：

#计算熵（熵越大说明该数据集变化程度越高、不确定性越强）
from math import log,exp
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet: #the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob, 2) #log base 2
    return shannonEnt
#拆分数据集，方便后续求不同的熵
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]     #chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #the last column is used for the labels
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain = 0.0; bestFeature = -1
    for i in range(numFeatures):        #iterate over all the features
        featList = [example[i] for example in dataSet]#create a list of all the examples of this feature
        uniqueVals = set(featList)       #get a set of unique values
        newEntropy = 0.0
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
        infoGain = baseEntropy - newEntropy     #calculate the info gain; ie reduction in entropy
        print("按第几个变量拆分："+str(round(i,3)),"未拆分前的信息熵："+str(round(baseEntropy,3)),
              "拆分后的信息熵："+str(round(newEntropy,3)),"信息增益："+str(round(infoGain,3)))
chooseBestFeatureToSplit([[1,1,'yes'],[1,1,'yes'],[1,0,'no'],[0,1,'no'],[0,1,'no']])

理解熵、信息熵、信息增益的概念和算法之后，可以再好好理解决策树模型、随机森林、xgboost等，因为这些模型都是以熵为基础，通过一些算法来进行树模型的剪枝，尽可能的提升模型的预测效果。

http://mp.weixin.qq.com/s?__biz=MzkzNjIxOTkyOQ==&mid=2247489436&idx=1&sn=0c3606075ccf2f7c8b3eb1ebed40fe88

Python学习杂记

数据分析与挖掘、运筹优化、机器学习、AI 、数据可视化等。

最新文章

Jupyter扩展插件使用介绍

SAT 问题和混合整数线性规划问题的区别

Pandas合并数据：concat方法详细介绍

Flask编写API基础案例介绍

Python数据分析和数据处理之多重共线性

国产优质免费AI推荐

folium解决无法打开地图的问题

启发式、元启发式、超启发式算法的区别

Pandas快速可视化方法介绍：折线图、散点图、直方图、箱线图、蜂窝图、饼图等作图代码分享

调用百度批量算路功能介绍

机器学习中熵、信息熵、信息增益的基本介绍

一文了解条件语句的多种写法

Python自动打开文件常用方法

管理者必备的几个思维

Python与Excel交互：xlrd xlwt库简介

Windows环境中Python脚本开机自启动及其监控自启动

使用Python制作动图

多目标优化与多任务优化的区别

理性看待姜萍事件

国产遗传算法包geatpy使用介绍（附Python代码）

pyinstaller打包封装程序介绍

KNN算法介绍及案例

Pandas实现excel透视表数据聚合功能

数据分析相关文章汇总

常见可视化图表使用陷阱！

Pandas处理缺失值的7种方法

DuckDB 到底能处理多大的数据？

机器学习中10种距离介绍（附python代码）

免费学习资料分享（建议保存到网盘）

国产免费AI工具汇总

Pandas的10个经典的高级操作

Pandas高效处理数据方法汇总

免费在线Pandas优质学习资源介绍

Pandas常用操作示例介绍

详解Python强力管家Conda

Python-project-Scripts：Python自动化项目宝库

pyinstaller封装python程序方法介绍

Python中虚拟环境使用介绍

常用快捷键汇总

Python读取带密码的excel文件

Python性能优化：10个提升代码性能的策略

算法图解：让复杂算法变得简单易懂的秘籍

禁忌搜索算法原理及其代码实现（基于TSP问题的python代码）

数学规划求解器 | 手把手教你CPLEX的安装及PyCharm环境的配置

Python单元测试：10个单元测试框架的使用方法

两位人工智能先驱获2024年诺贝尔物理学奖

Python读取多个sheet的excel文件常用方法

运筹学常见的VRP问题基础介绍

十种不同的TSP问题及其数学模型

使用python批量处理图片并转成pdf格式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉