中文词法分析神器，玩转 Thulac

文摘 2024-11-20 19:58 山东

今天聊点硬货，教大家用 Thulac 这套清华出的中文词法分析工具包，搞定中文分词、词性标注啥的。听起来高深？别急，咱一步步拆开，学完就能直接上手撸代码。

安装 Thulac

先装上工具再说，Thulac 的安装其实挺简单。

Python 环境都配好了吧？有些小伙伴可能懵：“啥是 Python 环境？” 别急，简单讲，Python 就是 Thulac 跑起来的发动机，没这玩意儿，啥都动不了。


pip install thulac

一行命令搞定。如果网络不给力，换个国内镜像，比如：


pip install thulac -i https://pypi.tuna.tsinghua.edu.cn/simple
温馨提示：别漏了 pip 和 -i，漏一个，报错怼你没商量。

分词：拆字成词小能手

分词就是把长串的中文句子拆成一个个小词。举个例子：

import thulac
thu = thulac.thulac()text = "清华大学很牛，推出了Thulac中文词法分析工具。"result = thu.cut(text, text=True)print(result)

运行一下，输出大概是这样：
清华大学/nt 很/d 牛/a ，/w 推出/v 了/u Thulac/n 中文/n 词法/n 分析/v 工具/n 。/w
看懂了吧？句子被拆成了一个个词，还带了 词性标注（比如 /n 表示名词，/v 表示动词）。这就很方便后续分析，比如统计词频、过滤特定词汇啥的。

温馨提示：默认结果是字符串，如果想要分词后的列表形式，把 text=True 改成 text=False 就行。

词性标注：帮词分门别类

词性标注干啥的？简单说就是告诉你每个词的角色。像这样：

名词：人、事、物（比如“清华大学”）
动词：行为动作（比如“推出”）
形容词：描述性词语（比如“牛”）

有时候，你可能只关心某种词，比如找出句子里的名词，可以这样：


thu = thulac.thulac()text = "清华大学很牛，推出了Thulac中文词法分析工具。"result = thu.cut(text, text=False)
nouns = [word[0] for word in result if word[1] == 'n']print(nouns)

‍输出是这样的：


['清华大学', 'Thulac', '中文', '词法', '工具']

这个逻辑啥意思？分词后生成的是 [词, 词性] 的列表，我们把词性是 'n' 的全挑出来。

用户词典：自定义你的词语

有时候，默认的分词规则不够灵活，比如 “OpenAI” 可能被拆成 “Open”和 “AI”，咋办？Thulac 支持用户词典，自己加规则。

创建个 user_dict.txt 文件，内容像这样：

OpenAIChatGPT

然后加载：


thu = thulac.thulac(user_dict="user_dict.txt")text = "OpenAI开发了ChatGPT，很有趣。"result = thu.cut(text, text=True)print(result)

输出效果：


OpenAI/n 开发/v 了/u ChatGPT/n ，/w 很/d 有趣/a 。/w
是不是顺眼多了？

温馨提示：用户词典的每一行是一个词，注意别写错。

批量处理：让机器跑得更快

如果你有一堆文本要处理，单个单个分词就太慢了。Thulac 提供了文件批量处理模式，一次搞定：


thulac -i input.txt -o output.txt

input.txt 是你的原始文本，output.txt 是分词后的结果。

温馨提示：文件路径要写对，否则工具可能“假装看不到”。

实际应用场景

文本分类：比如判断用户评论是正面的还是负面的，用分词结果做输入数据效果更好。
搜索引擎：分词能帮你提高搜索精准度，比如“清华大学排名”和“清华大学录取分数”会被拆成不同的关键词。
关键词提取：把文章里的重点词挑出来，省得你人工挑半天。

踩坑提示

版本问题：Thulac 需要 Python 3.x，如果用的是 2.x，可能会各种奇怪报错。
编码问题：处理中文文件时，确保是 UTF-8 编码，否则分词结果可能是乱码。
词性标注不全：有些词的词性 Thulac 不支持自定义，遇到这种情况，只能另想办法。

用 Thulac，中文处理变得省时省力，效果还不错。现在轮到你试试了，拿自己的句子跑两遍，感受下这工具的威力！

http://mp.weixin.qq.com/s?__biz=MzU5MTczMTUwOQ==&mid=2247485906&idx=1&sn=6b9bee3f1955c15a1e873ab22c25e28a

668号厅苏女士

668小苏专业吐槽副业试片天天追新剧，偶尔补老番感谢关注，喜欢就留下吧~

最新文章

揭秘html5lib：解析HTML的幕后高手

Coala：给代码来个全面体检吧~

中文词法分析神器，玩转 Thulac

TensorFlow 1.X到2.X的迁移指南

matplotlib，一个功能强大的统计绘图 Python 库

pyecharts，一个开源数据可视化 Python 库

matplotlib，一个功能强大的统计绘图 Python 库

Facker，一个更优雅地造测试数据的 Python 库

chardet，一个 Python 常用字符编码自动检测库

Dask，一个功能强大的大数据并行计算 Python 库

mock，一个测开必备的 python 库！

《玫瑰的故事》我敢说你肯定不知道，玫瑰花了20万学开飞机才遇到的何西，在告别时表白被拒的根本原因

40集《北上》央视黄金档首播，全员实力派，年代剧又有王炸了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

安妮斯顿街头惨被泼漆，行头几乎全毁

2024美国好莱坞最新灾难片，耗资1.5亿，上映仅3天评分飙到8.5

这部Netflix刷爆全球的成人动画终于回来了！《英雄联盟：双城之战2》定档11.9

39集《西北岁月》央视黄金档首播，全员实力派，靳东于和伟张颂文李雪健，革命历史剧又有王炸了！

谍战教父柳云龙再度出山！40集谍战剧不日上映，携手于和伟、张鲁一再续传奇？

患先天遗传病的他，误打误撞竟成恐怖片圣体

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

比肩《潜伏》，四大卫视联播，张嘉益罗海琼联手打造草根传说

40集《北上》央视黄金档首播，全员实力派，年代剧又有王炸了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

因反腐尺度过大，被央视黄金档“停播”！黄志忠、张译、于和伟这部《国家行动》让大家久等了！

央八首播！32集谍战剧，开播4集就全国收视第一，平均收视率破1，封神还是疯神？

38集公安剧《人民警察》央视首播收视第一，但为何差评如潮、嘘声一片？

烧脑至极！Netflix的这部最新R级恐怖片《开箱灵魂》真脑洞大开~

大失所望，一口气刷完前三集，这部又燃又爆的世界级大IP，你怎么看？

收视破3！《上甘岭》央视开播，24集短小精悍！口碑出炉，观众评价却出奇的一致？

来了！感觉今晚的电影院会哭倒一片~

HBO《沙丘》前传剧定档！会不会接棒《企鹅人》成为下一步爆冷黑马？

《黑袍纠察队》最终季来了！又有新角色加盟，这个新卡司你满意吗？

史上最烧钱美剧回归，口碑两极分化，封神还是疯神？

三年了！这部Netflix王炸剧终于定档了

为啥异形会设计成这样？

韩三大凶宅「长春花园」搬上大银幕！赵胤熙徒手挖虫挑战鬼后极限

《封神第二部：魔道争锋》定档1月29号

原创剧集《异形：地球》预告片上线，明年上映，你期待吗？

《异形：夺命舰》大彩蛋！蕾普利藏在罗慕路斯号上

指环王回来了！美日合作混血动画《指环王：洛汗之战》带你重返中土世界

差一点出演异形的狗狗！却因过于可爱惨遭淘汰~

又一个先天恐怖片圣体，异形传统，《异形：夺命舰》混血异形Boss竟是他

患先天遗传病的他，误打误撞竟成恐怖片圣体

一个入选奥斯汀奇幻电影节，一个在金马奇幻影展回响热烈

漫画神作《自白》登上大屏幕！生田斗真与梁益准暴风雪山中上演大逃杀

Zoe亲导的片！男女朋友就该一起拍片吗？查宁·塔图姆与佐伊·克罗维兹催生《求救眨眨眼》

打不死的外星怪物又回来啦！今日《异形：夺命舰》公映再现抱脸虫

成龙说漏嘴爆师弟死讯，元奎因新冠去世已两年

追平35年记录，恭喜布蕾克·莱弗利和瑞安·雷诺兹夫妻档霸占北美票房冠亚军

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉