Chardet：轻松搞定文本编码识别的神器

文摘 2024-11-19 19:42 重庆

Chardet：轻松搞定文本编码识别的神器

程序员遇到编码问题真是让人头大，尤其是处理那些来源不明的文本文件。好在Python有个宝藏库 chardet ，它就像个编码侦探，能自动识别文本的编码格式。只需要给它一段字节数据，它就能猜出这段数据最可能的编码类型，准确率相当高。

装这个库超简单，一行命令的事：


pip install chardet

看看它怎么用：


import chardet
raw_data = '你好，世界'.encode('utf-8')
result = chardet.detect(raw_data)
print(result)
# 输出： {'encoding'： 'utf-8'， 'confidence'： 0.99， 'language'： 'Chinese'}

detect() 方法会返回一个字典，里面告诉你识别出的编码类型、可信度，有时还能猜出是啥语言。

读取文件时，编码错误可把人烦死了。用chardet可以这么处理：


def read_file_smart(file_path)：
    # 先读取原始字节
    with open(file_path， 'rb') as f：
        raw_data = f.read()
    # 检测编码
    detected = chardet.detect(raw_data)
    encoding = detected['encoding']
    # 用检测到的编码重新读取
    with open(file_path， encoding=encoding) as f：
        return f.read()
# 使用示例
content = read_file_smart('mystery_file.txt')

🌟 温馨提示：detect() 需要的是字节类型的数据，不是字符串。要是传字符串进去，准保报错。

要是有一堆文件要处理，可以这样写：


import os
def batch_process_files(folder_path)：
    for root， _， files in os.walk(folder_path)：
        for file in files：
            if file.endswith('.txt')：
                file_path = os.path.join(root， file)
                try：
                    content = read_file_smart(file_path)
                    print(f'{file} 读取成功')
                except Exception as e：
                    print(f'{file} 处理出错： {str(e)}')

有时候一次性读取大文件不太现实，可以用流式检测：


from chardet.universaldetector import UniversalDetector
def detect_large_file(file_path)：
    detector = UniversalDetector()
    with open(file_path， 'rb') as f：
        for line in f：
            detector.feed(line)
            if detector.done：
                break
    detector.close()
    return detector.result

🌟 温馨提示：读大文件时用流式检测能省不少内存，代价是速度会慢一点。

检测结果不一定100%准确，尤其是数据太短的时候
有些冷门编码可能认不出来
中文编码检测有时会混淆GBK和GB2312

代码防御性写法：


def safe_decode(byte_data)：
    result = chardet.detect(byte_data)
    if result['confidence'] < 0.6：
        return byte_data.decode('utf-8'， errors='ignore')
    return byte_data.decode(result['encoding']， errors='ignore')

chardet这个库用好了是个利器，省去不少处理编码的麻烦。编码问题看着吓人，其实掌握了这些技巧就不难搞定。以后遇到乱码问题，先想想是不是该用chardet来帮忙。

http://mp.weixin.qq.com/s?__biz=MzkxNDUyMjcwNg==&mid=2247515922&idx=1&sn=b499d2f5b03fec53a3ae0468b1c1f934

CQTV新视界

重庆广电城市TV旗下优质内容品牌，感谢您的关注！

最新文章

赔付超16.5亿元！事关重庆医保参保人医保待遇，请留意！

Chardet：轻松搞定文本编码识别的神器

Celery：给你的Python添加异步魔法！

Bokeh，为数据赋予生命的可视化神器！

Black：给你的Python代码来个大扫除

Beautiful Soup - 轻轻松松玩转网页数据提取

异步编程的救星 - 用Asyncio让你的程序飞起来

Arrow，时间处理大师

APScheduler：定时任务神器

肝不好的人，可以吃香蕉吗？医生：想养肝，可以多吃这4类水果

经常喝豆浆和经常喝牛奶的人，会有什么不一样？谁的身体会更健康？

儿子恋爱后总要钱被妈妈送派出所网友：很有决断力的妈

四川仪陇一店主称雇老人收银被其长期偷钱，对方退款2万多后失联，当地回应

遮挡号牌、非法改装……武汉江夏交警：一律严查严处！

深圳一女子沿外墙管道徒手爬好几层楼，社区：已被救下

军工厂遭恐袭后土耳其机场全面升级安保措施

似姜不是姜，它是天然的“胰岛果”，能双向调节血糖，入秋后可以尝尝

上海中环一轿车翻越中央隔离栏，与对向车道车辆相撞

42岁上海理工大学副教授李佳逝世，同事：意外摔倒后受伤

女子先后和4人办婚礼骗了160多万元还是熟人介绍

福州又有两家医院试行“无陪护”病房

广州峡石村通过放飞大量“益蚊”控制伊蚊种群密度，七年未发生一例登革热病例

重庆警方破获制售假酒案集中销毁万余瓶假“茅台”

东北“三省一区”交旅融合暨汽车租赁高质量发展会议在哈尔滨召开

2023年度上海市科技功臣奖获得者丁健：首创新药不是叫出来的

浙江柯城：全国千余名选手将竞技灵鹫山古道越野赛

政策红利释放青岛空港进出境外籍旅客数量猛增

肾脏好不好，走路就知道？医生：走路时若有这3个表现千万要当心

山东济南市委常委、宣传部部长戴龙成调任福建莆田市委副书记

多名女子疑被下药迷奸！慌张男子落网！手机藏有不雅视频……

3人相约摘马蜂窝后路过多人被蜇伤：一女子抢救无效死亡，家属起诉索赔91万元

走路时突然腿发软，不一定是缺钙，小心是髌骨软化症！

江西南昌：科技创新赋能产业转型升级

青海：政银协作催生柴达木枸杞百亿产业链

四川广元一小孩掉进化粪池，爷爷救孙不幸身亡街办：警方已介入调查

网友曝西安一“安全监管”皮卡深夜“漂移”，相关部门：系西安沣东国际车城发展有限公司车辆交警部门正核实情况

婴儿离世被火化后未留骨灰，家长将医院殡仪馆告上法庭

茶叶到底是升尿酸还是降尿酸？痛风病人能不能吃？听听医生怎么说

70岁以上老年人在非高峰时段可免费乘地铁？上海地铁：谣言

眼睁睁看着人没了…女友含泪控诉：“他是八年制医学博士毕业，家里唯一的孩子”

仰望U9纽北测试发生意外爆胎，11月初将再次包场测试

业内人士：伍佰回应叶珂为假消息

一中学生遭班主任醉酒殴打头上多处骨折？官方通报：涉事老师停课停职！

致中国人死亡率全球第一的调味品，每家都在用，吃的时候需注意！

福州机场执行流量控制，成都至当地有航班备降，15时10分开始恢复航班进港

办完婚礼后不久分手，男子起诉女方返还彩礼、三金和婚宴支出22万余元！法院判了

烟台一财务被“老板”拉进群聊骗走30万元

广东省海洋综合执法队伍抓获1艘非法赴东沙海域海钓渔船

2024中国动植物考古学大会在郑州举办

玉米是冠心病“导火索”？医生提醒：不想心脏罢工，3食物别嘴馋

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉