2019-01-31 求能够自动校对或过滤文本中错词的工具,开源库更好 -- 思路整理

2019-01-31: 2700多词单词列表需要构词比对fake_words.7z (13.6 KB) :最简单的非人工处理方式思路:待剥离GoldenDict的核心部分(非UI相关的所有词典处理部分)出来,开发/完善命令行查词功能,以适配命令行工具(grep/awk等)对查询结果的批处理需求。
2019-01-29: 对剩余的2700多词,需要通过对汉英大进行全文搜索,整理出错词(fake_word可能的错词)对应的词头head word,通过这个head word去检索其它所有的汉英词典(以stardict格式金山数据的 词典为主),从检索到的词条内容中fake_word的拼写相近的单词来替代fake_word。

2019-01-28: 通过撞击bing在线词典又过滤去了一撮,剩余2700多词。


有空儿合了一版汉英大(数据为三版内容和二版部分内容),然而三版英文部分错别词较多,请问有什么方法(或有效可用的可用工具/库)能够自动校对或过滤文本中的错词呢?
只需要把其中的可能的错词挑选出来也行,较少的情况可以人工校正。

之前发现有一个基于机器学习的校对工具,不过应该是收费的。
英语的话,用grammely也能凑合下。

用过hunspell,jamspell,symspell。
hunspell是linux和firefox自带的拼写检查器,goldendict也是用的这个。
symspell算法最强,自带8万高频词,只是低频词需要自己处理词典,词典好效果就好。
jamspell自带30万维基训练结果,上手简单,能跑起来就没问题,够应付了。

symspell和jamspell都有python版,你可以自己试试,看哪个好用。