python自动化拼写检查器

2022-09-24 13:16

真正精彩的代码是能够做到使用简短的代码，实现有意义的功能。

——Guido鲁迅

今天分享的代码是谷歌Norvig大神的杰作，他用很简洁的方式实现了单词的自动化拼写检查。

当我们使用谷歌搜索内容的时候，如果你拼错一个单词，网页会提醒你可能的正确拼法，这就是所谓的“拼写检查”(spelling corrector)。谷歌使用的是基于贝叶斯推断的统计学习方法。这种方法的特点就是快，很快的时间内处理大量文本，并且有很高的精确度（90%以上）。

效果大概是这个样子：

当用户输入一个单词的时候，分为了两种情况：

拼写正确，记为c(correct)
拼写错误，记为w(wrong)

所谓的“拼写检查”，从概率论的角度看，就是已知w，然后在若干个备选方案中，找出可能性最大的那个c，也就是求式（1）的最大值。

根据贝叶斯定理可得：

对于所有的备选项c来说，w都是相同的，因此可将上式简化为：

所以，实际上可以看成是求式（3）的最大值

P(c)的含义是，某个正确的词的出现“概率”，它可以用“频率”代替。如果我们有一个足够大的文本库，那么这个文本库中每个单词的出现频率，就相当于它的发生概率。某个词的出现频率越高，P(c)就越大。

P(w|c)的含义是，在试图拼写c的情况下，出现拼写错误w的概率。这需要统计数据的支持，但是为了简化问题，我们假设两个单词在字形上越接近，就越有可能拼错，P(w|c)就越大。

举例来说，相差一个字母的拼法，就比相差两个字母的拼法，发生概率更高。

例如，如果你想拼写单词Serendipity，那么错误拼写成Serendipitu（相差一个字母）的可能性，就比拼成Serendipituu要高（相差两个字母）。

所以，我们只要找到与输入单词在字形上最相近的那些词，再在其中挑出出现频率最高的一个，就能实现P(w|c)*P(c)的最大值。

实现代码如下：

import refrom collections import Counter
def words(text): return re.findall(r'\w+', text.lower())
WORDS = Counter(words(open('big.txt').read()))
def P(word, N=sum(WORDS.values())):     "Probability of `word`."    return WORDS[word] / N
def correction(word):     "Most probable spelling correction for word."    return max(candidates(word), key=P)
def candidates(word):     "Generate possible spelling corrections for word."    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])
def known(words):     "The subset of `words` that appear in the dictionary of WORDS."    return set(w for w in words if w in WORDS)
def edits1(word):    "All edits that are one edit away from `word`."    letters    = 'abcdefghijklmnopqrstuvwxyz'    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]    deletes    = [L + R[1:]               for L, R in splits if R]    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]    inserts    = [L + c + R               for L, R in splits for c in letters]    return set(deletes + transposes + replaces + inserts)
def edits2(word):     "All edits that are two edits away from `word`."    return (e2 for e1 in edits1(word) for e2 in edits1(e1))
################ Test Code 
def unit_tests():    assert correction('speling') == 'spelling'              # insert    assert correction('korrectud') == 'corrected'           # replace 2    assert correction('bycycle') == 'bicycle'               # replace    assert correction('inconvient') == 'inconvenient'       # insert 2    assert correction('arrainged') == 'arranged'            # delete    assert correction('peotry') =='poetry'                  # transpose    assert correction('peotryy') =='poetry'                 # transpose + delete    assert correction('word') == 'word'                     # known    assert correction('quintessential') == 'quintessential' # unknown    assert words('This is a TEST.') == ['this', 'is', 'a', 'test']    assert Counter(words('This is a test. 123; A TEST this is.')) == (           Counter({'123': 1, 'a': 2, 'is': 2, 'test': 2, 'this': 2}))    assert len(WORDS) == 32192    assert sum(WORDS.values()) == 1115504    assert WORDS.most_common(10) == [     ('the', 79808),     ('of', 40024),     ('and', 38311),     ('to', 28765),     ('in', 22020),     ('a', 21124),     ('that', 12512),     ('he', 12401),     ('was', 11410),     ('it', 10681)]    assert WORDS['the'] == 79808    assert P('quintessential') == 0    assert 0.07 < P('the') < 0.08    return 'unit_tests pass'
def spelltest(tests, verbose=False):    "Run correction(wrong) on all (right, wrong) pairs; report results."    import time    start = time.clock()    good, unknown = 0, 0    n = len(tests)    for right, wrong in tests:        w = correction(wrong)        good += (w == right)        if w != right:            unknown += (right not in WORDS)            if verbose:                print('correction({}) => {} ({}); expected {} ({})'                      .format(wrong, w, WORDS[w], right, WORDS[right]))    dt = time.clock() - start    print('{:.0%} of {} correct ({:.0%} unknown) at {:.0f} words per second '          .format(good / n, n, unknown / n, n / dt))
def Testset(lines):    "Parse 'right: wrong1 wrong2' lines into [('right', 'wrong1'), ('right', 'wrong2')] pairs."    return [(right, wrong)            for (right, wrongs) in (line.split(':') for line in lines)            for wrong in wrongs.split()]
if __name__ == '__main__':    print(unit_tests())    spelltest(Testset(open('spell-testset1.txt')))    spelltest(Testset(open('spell-testset2.txt')))

http://mp.weixin.qq.com/s?__biz=MzU2Nzc4MTc3MQ==&mid=2247483818&idx=1&sn=649edd2f5c6d56d614015d9a5ad4ebcb

小马过河啊

要好好学习呀!

最新文章

几分钟内求解百万级规模cvrp—FILO2

最新的几个VRP问题求解的开源工具

工业界运筹学项目无法落地的原因有哪些？

软件工具 | Python调用运筹优化求解器（二）：以VRPCB为例

AILS-II：用于大规模容量车辆路径问题的自适应迭代局部搜索启发式算法

《Model Thinking for Everyday Life》——Richard Larson老爷子的新书访谈

为什么运筹学领域的开源软件落后机器学习领域这么多？

【TKDE 2024】MM-STGED：融合微观-宏观语义的时空图模型for地图约束轨迹恢复

一文解释 PyTorch求导相关 (backward, autograd.grad)

PyVRP：高性能vrp问题开源求解器

VRPSolverEasy：可求解多种VRP变体（rich vehicle routing）问题的精确算法python包

城市物流中的“富”弧路径问题：基于流体排队时变行程时间表征的模型与求解算法

运筹学领域有哪些反直觉的结果？

数据驱动的优化：通过机器学习改进组合优化求解器

European Journal of Operational Research 期刊导读（离散优化系列）

python+gurobi获取帕累托最优前沿——以双目标优化的运输问题为例

Amazon2021大规模路径规划数据集介绍

Transportation Research Part B最新鲁棒优化文章

python自动化拼写检查器

确定对象被使用前已先被初始化

尽量使用const

视C++为一个语言联邦，少使用宏定义

写更加高效的C++

三维装箱——启发式装箱策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉