textdistance - 一个非常实用但容易被忽视的宝藏Python库

文摘 2024-10-27 09:39 宁夏

点击蓝字关注我们

在处理文本相似度计算时，我曾经遇到一个有趣的问题：如何快速判断两个字符串的相似程度？最初的想法是使用Levenshtein距离，但随着项目的深入，发现需要支持更多的相似度算法。正当一筹莫展时，发现了textdistance这个宝藏库。

为什么需要textdistance？

在文本处理领域，相似度计算是一个基础且重要的任务。无论是拼写检查、模糊匹配还是文本去重，都离不开字符串相似度的计算。textdistance提供了30多种算法，涵盖了编辑距离、序列、集合、向量等多个类别，堪称文本相似度计算的瑞士军刀。

安装配置

安装textdistance非常简单：

python

pip install textdistance

为了获得最佳性能，建议同时安装以下可选依赖：

python

pip install textdistance[extras]

基本用法示例

textdistance的使用方式极其优雅。以下是几个常用算法的示例：import textdistance





1# Levenshtein距离
2result = textdistance.levenshtein('python'， 'pytohn')
3print(f“Levenshtein距离： {result}”)  # 输出： 2
5# Jaro-Winkler相似度
6similarity = textdistance.jaro_winkler('python'， 'pytohn')
7print(f“Jaro-Winkler相似度： {similarity}”)  # 输出： 0.9666666666666667
9# Hamming距离
10hamming = textdistance.hamming('python'， 'pytohn')
11print(f“Hamming距离： {hamming}”)  # 输出： 2

进阶技巧

textdistance的一个强大特性是支持算法的归一化和相似度/距离转换：

python

import textdistance





1# 归一化结果(返回0-1之间的值)
2normalized = textdistance.levenshtein.normalized('python'， 'pytohn')
3print(f“归一化Levenshtein： {normalized}”)  # 输出： 0.6666666666666667
5# 距离转相似度
6similarity = textdistance.levenshtein.similarity('python'， 'pytohn')
7print(f“相似度： {similarity}”)  # 输出： 4.0

实战应用

下面是一个实际的应用案例 - 模糊搜索功能：def fuzzy_search(query， choices， threshold=0.8)： results = [] for choice in choices： # 使用Jaro-Winkler算法计算相似度 similarity = textdistance.jaro_winkler(query.lower()， choice.lower()) if similarity >= threshold： results.append((choice， similarity)) return sorted(results， key=lambda x： x[1]， reverse=True)





1# 测试数据
2programming_languages = [
3    “Python”， “JavaScript”， “Java”， “C++”， “PHP”，
4    “Ruby”， “Swift”， “Kotlin”， “Go”， “Rust”
5]
7# 搜索示例
8search_result = fuzzy_search(“phyton”， programming_languages)
9print(“搜索结果：”， search_result)  # 输出： [('Python'， 0.9166666666666666)]

性能优化建议

对于大规模文本比较，可以使用库的快速算法实现：# 使用快速实现版本 result = textdistance.levenshtein.quick_ratio(‘python’， ‘pytohn’)
如果需要重复计算，可以创建算法实例重用：leven = textdistance.Levenshtein(external=True) result1 = leven(‘python’， ‘pytohn’) result2 = leven(‘java’， ‘jiva’)

总结与展望

textdistance的优势在于：

接口统一且直观
算法实现丰富
支持距离/相似度转换
可扩展性强

在未来的版本中，期待看到：

更多的向量空间算法支持
并行计算能力的增强
与深度学习模型的集成

通过这个库，我们可以优雅地解决各种文本相似度计算问题，而不必重复造轮子。如果你的项目中需要处理文本相似度相关的任务，textdistance绝对值得一试。

点击分享让更多人看到

李雪Sonia

爱理财爱保险爱生活

最新文章

你的爱车来了！标配72V电池，极速70kmh，这三款电动车兼具高性能与玩乐性

开高速时，遇到前车急刹是躲还是跟着急刹？交.警：最后再说一次

华南理工大学，偶遇“废弃”保时捷，都夸车牌好，可惜了

不管日系、美系还是德系，99%的车都有这个缺点！

2025年了，还有车企出新款油车！有戏吗？

4月起，70岁以上不允许开车上路？交警：需满足这些条件！

大众终于厚道了！4米8“经典神车”降到8.19万，油耗6.5L，难怪能月销32000+辆！

车主后备箱放9箱啤酒逮住，被罚款！车主怒了，霸气反问交警：是酒不能喝？还是后备箱不能用？

兵败如山倒，销量全线崩塌！国产新能源或证明了，中国汽车市场根本不需要二线豪华品牌吗？

奥迪在车库停了10年，停车费高达34万，知晓车主身份后一分不要

2025年2月起，5类电动车上路，不查、不扣、不罚、不禁！车主放心骑

9.98万“卷王”新成员！星光S来袭，油耗低至2.5L

起亚全新小型SUVSyros亮相，车长不足4米，或5万起售，动力如何？

交警提醒：酒后叫代驾却被扣12分，车主反问交警为啥受罚，交警：看你做了什么

为什么倒车技术好的人大多都是驾驶高手？

又一合资方盒子SUV“发飙了”，2.0T+8AT操控轻盈，路虎颜值气场碾压汉兰达，空间比大众途观L还大

为什么冬季汽车的油耗比夏天开空调还高？搞懂这5点，油耗下降10%

严查超标车该停了！工信部：销售过渡期延长，6大利好顺民意！

本田终于“听劝”了，全新本田雅阁实车曝光，外观大改更战斗激进，雅阁车主：我现在感觉自己强得可怕

2024年雅迪缩水近半，行业老大首次业绩下滑，真因为新国标吗？

2025年，电动车迎6大利好！买车、上牌、上路、考证都有利好，车主可以笑了

上汽通用五菱：首个达成3000万辆成就！今年还发近30款新车

奇瑞就是“值”，跌至11万多，七座+2.0T+8AT，车长近5米

20万预算，华为系最美轿车就要来了！

为什么闯了红灯却没收到处罚短信？交警：这3种闯红灯不会被处罚

支持140km长续航，新款外卖专用电动车上市，极速70kmh

中大型SUV新王炸！车长超5米2，插混4.8秒破百，比坦克500更顶？

持有C1驾照！只要235元，电动二三四轮车都能驾驶！不会罚款扣分

车主点赞特斯拉标配主动安全的高能操作：冬天雪地里真的能救命！

别人均奔驰E了！养一台30万的小米SU7，月薪8000都可能一分不剩

日本人急了！索尼社长：中国电车毫无技术，很低级，只会把屏幕弄得花里胡哨，旗下首款电车起售价卖65万，就问你怕不怕

汽车一年只开2000公里，真的不用换机油？10年老修理工给你说道说道

天冷电动车充满电，一加油门就少2格，不怪电池，真实原因告诉你

中国有钱人“装穷”的五款车，说才30万都没人信，买它们的家境绝对不差！穷人却看不上？

一年跑不到一万公里，老司机：听一句劝，油车比新能源车省钱，买油车不吃亏

为什么很多人说bba的电车是杂牌？他们的车，到底差在哪里？

三、四轮车大检查又来了！最新检查重点告诉你，违者扣车罚款，车主注意

王炸开局高能收官！小刀微卡2024“出圈”大事件！

上汽通用官宣：3大品牌发12款新车！GL8要换代，还出增程版

奇瑞又卖“爆了”！高颜值七座奶爸车，降到11万多，续航近2000公里，网友：真香！

汽车AC开关是制冷还是制热？终于知道冬天开启它的原因了！~老司机告诉你答案！

你家电动车、三轮车、四轮车能否载人？能载几人？这样判断！别等处罚了才知道

EZ-6相当“哇塞”，很不马自达，却很懂消费者！13万，能靠性价比热销吗？

国家明确：一个月收入买的电动车，不应该随意没收！严禁以罚代管，可得民心！

自动挡跑高速用D档还是S挡，很多司机没整明白，老司机手把手教你

全国高速将统一限速，4种超速不再扣分罚款，车主：终于解脱了！

三、四轮车年底大严查！“4大严查”已淘汰、置换和扣留车辆638辆，车主注意

交警提醒：5座车坐6人不再扣分？2024年超载新规来了，已有许多司机“中招”，车主请注意！

丰田全新“格瑞维亚”曝光！采用最新设计理念，能否在MPV市场中稳住地位？

丰田“下血本”，新款SUV跌至9.6万，2.0L+92号油，一公里才3毛___zUjMrN

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉