chardet，一个 Python 常用字符编码自动检测库

文摘 2024-11-14 19:58 山东

大家好，今天 668 给大家分享一个常用的 Python 字符编码自动检测库 – chardet。

chardet 是一个开源的 Python 字符编码自动检测三方库，可以浏览器一样自动识别字符的编码格式。

他的使用场景，是帮助我们识别一些编码格式不明确的文本字符，以辅助我们有效地进行解码识别字符。

使用背景

Python 提供了 str 和 bytes 两种数据类型，但它们之间的编码格式一直让人头疼。我们知道文本的传输会经历编码、传输、解码的过程。在这个过程中，传递和接收方应该约定字符的编码格式，利用 encode() 和 decode() 来进行编码和解码的操作。这个过程如下：

编码：str.encode('编码类型')
解码：bytes.decode('编码类型')

如果不知道商品第一步的编码类型，我们就无法进行第二步的操作，这时候我们就只能靠猜了。猜测的方法就是先收集部分的字符特征，然后根据这些特征进行一定的猜测，猜测过程大概率能够得到正确的编码类型。但是这个猜测过程是十分繁琐，费时又费力，这时候这个三方库 chardet 正好来解决这方面的问题，用它来检测编码，即简单又易用。

安装

首先在终端进行安装：

pip install chardet

快速使用

给定一个字节串 bytes 进行检测：

import chardet
# 编码是 ascii 概率是1.0（即100%）chardet.detect(b'gairuo.com')# {'encoding': 'ascii', 'confidence': 1.0, 'language': ''}

对中文编码后再进行编码测试：

data = '我是中国人'.encode('gbk')# GB2312 是 gbk 超集，概率 74%， 语言为中文chardet.detect(data)# {'encoding': 'GB2312', 'confidence': 0.7407407, 'language': 'Chinese'}
data = '我是中国人'.encode('utf-8')# 正确检测到chardet.detect(data)# {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

一个典型的场景，我们爬取到一份数据，但不知道编码，可以用它进行检测：

import requests # 需要安装rawdata = requests.get('http://yahoo.co.jp/').contentimport chardetchardet.detect(rawdata)# {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

打开文件时不知道编码，进行检测：

with open('202110-test-01.ipynb', 'rb') as f:    code = chardet.detect(f.read())    print(code)# {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

检测给定字节字符串的所有可能的编码：

data = '66顺'.encode('utf-8')chardet.detect_all(data)'''[{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}, {'encoding': 'utf-8', 'confidence': 0.505, 'language': ''}]'''

要使用结果就取返回字典的 encoding 值。

其他案例

增量检测编码

如果要检测多个文本（例如单独文件）的编码，可以重复使用单个 UniversalDetector 对象。只需在每个文件的开头调用 detector.reset() ，多次调用 detector.feed，然后调用detector.close() 并检查detector.result 字典中的文件结果。

import urllib.requestfrom chardet.universaldetector import UniversalDetector
usock = urllib.request.urlopen('http://yahoo.co.jp/')detector = UniversalDetector()for line in usock.readlines():    detector.feed(line)    if detector.done: breakdetector.close()usock.close()print(detector.result)
# {'encoding': 'EUC-JP', 'confidence': 0.99}

检测多个文件的编码

import globfrom chardet.universaldetector import UniversalDetector
detector = UniversalDetector()for filename in glob.glob('*.xml'):    print(filename.ljust(60), end='')    detector.reset()    for line in open(filename, 'rb'):        detector.feed(line)        if detector.done: break    detector.close()    print(detector.result)

支持的编码

通用编码检测器目前支持二十多种字符编码。

Big5, GB2312/GB18030, EUC-TW, HZ-GB-2312, 和 ISO-2022-CN (Traditional 和 Simplified Chinese)
EUC-JP, SHIFT_JIS, 和 ISO-2022-JP (Japanese)
EUC-KR 和 ISO-2022-KR (Korean)
KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, 和 windows-1251 (Russian)
ISO-8859-2 和 windows-1250 (Hungarian)
ISO-8859-5 和 windows-1251 (Bulgarian)
ISO-8859-1 和 windows-1252 (Western European languages)
ISO-8859-7 和 windows-1253 (Greek)
ISO-8859-8 和 windows-1255 (Visual 和 Logical Hebrew)
TIS-620 (Thai)
UTF-32 BE, LE, 3412-ordered, 或者 2143-ordered (with a BOM)
UTF-16 BE 或者 LE (with a BOM)
UTF-8 (with or without a BOM)
ASCII

可检测中文、日文、韩文等多种语言。

其他

在读取数据过程中，遇到 csv 等文件中文如果不是 utf-8 编码，可试用 gbk，或者更多的字符集 GB2312、Big5、GB18030

参考

https://chardet.readthedocs.io/en/latest/index.html

http://mp.weixin.qq.com/s?__biz=MzU5MTczMTUwOQ==&mid=2247485876&idx=1&sn=41c916d61abac746641f151fcd2d6219

668号厅苏女士

668小苏专业吐槽副业试片天天追新剧，偶尔补老番感谢关注，喜欢就留下吧~

最新文章

揭秘html5lib：解析HTML的幕后高手

Coala：给代码来个全面体检吧~

中文词法分析神器，玩转 Thulac

TensorFlow 1.X到2.X的迁移指南

matplotlib，一个功能强大的统计绘图 Python 库

pyecharts，一个开源数据可视化 Python 库

matplotlib，一个功能强大的统计绘图 Python 库

Facker，一个更优雅地造测试数据的 Python 库

chardet，一个 Python 常用字符编码自动检测库

Dask，一个功能强大的大数据并行计算 Python 库

mock，一个测开必备的 python 库！

《玫瑰的故事》我敢说你肯定不知道，玫瑰花了20万学开飞机才遇到的何西，在告别时表白被拒的根本原因

40集《北上》央视黄金档首播，全员实力派，年代剧又有王炸了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

安妮斯顿街头惨被泼漆，行头几乎全毁

2024美国好莱坞最新灾难片，耗资1.5亿，上映仅3天评分飙到8.5

这部Netflix刷爆全球的成人动画终于回来了！《英雄联盟：双城之战2》定档11.9

39集《西北岁月》央视黄金档首播，全员实力派，靳东于和伟张颂文李雪健，革命历史剧又有王炸了！

谍战教父柳云龙再度出山！40集谍战剧不日上映，携手于和伟、张鲁一再续传奇？

患先天遗传病的他，误打误撞竟成恐怖片圣体

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

比肩《潜伏》，四大卫视联播，张嘉益罗海琼联手打造草根传说

40集《北上》央视黄金档首播，全员实力派，年代剧又有王炸了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

因反腐尺度过大，被央视黄金档“停播”！黄志忠、张译、于和伟这部《国家行动》让大家久等了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

38集公安剧《人民警察》央视首播收视第一，但为何差评如潮、嘘声一片？

烧脑至极！Netflix的这部最新R级恐怖片《开箱灵魂》真脑洞大开~

大失所望，一口气刷完前三集，这部又燃又爆的世界级大IP，你怎么看？

收视破3！《上甘岭》央视开播，24集短小精悍！口碑出炉，观众评价却出奇的一致？

来了！感觉今晚的电影院会哭倒一片~

HBO《沙丘》前传剧定档！会不会接棒《企鹅人》成为下一步爆冷黑马？

《黑袍纠察队》最终季来了！又有新角色加盟，这个新卡司你满意吗？

史上最烧钱美剧回归，口碑两极分化，封神还是疯神？

三年了！这部Netflix王炸剧终于定档了

为啥异形会设计成这样？

韩三大凶宅「长春花园」搬上大银幕！赵胤熙徒手挖虫挑战鬼后极限

《封神第二部：魔道争锋》定档1月29号

原创剧集《异形：地球》预告片上线，明年上映，你期待吗？

《异形：夺命舰》大彩蛋！蕾普利藏在罗慕路斯号上

指环王回来了！美日合作混血动画《指环王：洛汗之战》带你重返中土世界

差一点出演异形的狗狗！却因过于可爱惨遭淘汰~

又一个先天恐怖片圣体，异形传统，《异形：夺命舰》混血异形Boss竟是他

患先天遗传病的他，误打误撞竟成恐怖片圣体

一个入选奥斯汀奇幻电影节，一个在金马奇幻影展回响热烈

漫画神作《自白》登上大屏幕！生田斗真与梁益准暴风雪山中上演大逃杀

Zoe亲导的片！男女朋友就该一起拍片吗？查宁·塔图姆与佐伊·克罗维兹催生《求救眨眨眼》

打不死的外星怪物又回来啦！今日《异形：夺命舰》公映再现抱脸虫

成龙说漏嘴爆师弟死讯，元奎因新冠去世已两年

追平35年记录，恭喜布蕾克·莱弗利和瑞安·雷诺兹夫妻档霸占北美票房冠亚军

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉