2019-01-31 求能够自动校对或过滤文本中错词的工具，开源库更好 -- 思路整理

nonwill · 2020 年1 月 27 日 05:08

2019-01-31: 2700多词单词列表需要构词比对fake_words.7z (13.6 KB) ：最简单的非人工处理方式思路：待剥离GoldenDict的核心部分（非UI相关的所有词典处理部分）出来，开发/完善命令行查词功能，以适配命令行工具（grep/awk等）对查询结果的批处理需求。
2019-01-29: 对剩余的2700多词，需要通过对汉英大进行全文搜索，整理出错词（fake_word可能的错词）对应的词头head word，通过这个head word去检索其它所有的汉英词典（以stardict格式金山数据的词典为主），从检索到的词条内容中fake_word的拼写相近的单词来替代fake_word。

2019-01-28: 通过撞击bing在线词典又过滤去了一撮，剩余2700多词。

有空儿合了一版汉英大(数据为三版内容和二版部分内容)，然而三版英文部分错别词较多，请问有什么方法（或有效可用的可用工具/库）能够自动校对或过滤文本中的错词呢？
只需要把其中的可能的错词挑选出来也行，较少的情况可以人工校正。

freemd · 2020 年1 月 27 日 07:53

之前发现有一个基于机器学习的校对工具，不过应该是收费的。
英语的话，用grammely也能凑合下。

rrr · 2020 年1 月 27 日 08:57

用过hunspell，jamspell，symspell。
hunspell是linux和firefox自带的拼写检查器，goldendict也是用的这个。
symspell算法最强，自带8万高频词，只是低频词需要自己处理词典，词典好效果就好。
jamspell自带30万维基训练结果，上手简单，能跑起来就没问题，够应付了。

symspell和jamspell都有python版，你可以自己试试，看哪个好用。