2019-01-31 求能够自动校对或过滤文本中错词的工具,开源库更好 -- 思路整理

2019-01-31: 2700多词单词列表需要构词比对fake_words.7z (13.6 KB) :最简单的非人工处理方式思路:待剥离GoldenDict的核心部分(非UI相关的所有词典处理部分)出来,开发/完善命令行查词功能,以适配命令行工具(grep/awk等)对查询结果的批处理需求。
2019-01-29: 对剩余的2700多词,需要通过对汉英大进行全文搜索,整理出错词(fake_word可能的错词)对应的词头head word,通过这个head word去检索其它所有的汉英词典(以stardict格式金山数据的 词典为主),从检索到的词条内容中fake_word的拼写相近的单词来替代fake_word。

2019-01-28: 通过撞击bing在线词典又过滤去了一撮,剩余2700多词。


有空儿合了一版汉英大(数据为三版内容和二版部分内容),然而三版英文部分错别词较多,请问有什么方法(或有效可用的可用工具/库)能够自动校对或过滤文本中的错词呢?
只需要把其中的可能的错词挑选出来也行,较少的情况可以人工校正。

https://www.wucuozi.com/
之前发现有一个基于机器学习的校对工具,不过应该是收费的。
英语的话,用grammely也能凑合下。

感谢推荐。这两个貌似都收费的,现在就想能够自动快速的对词典中的英文单词查一下哪些是错的,先不管意思对不对的上,只是找有拼写错误的,方法简单点儿就好。正打算把词典中的所有单词都去重排序好,然后拿牛津郎文中的词头去撞,把撞不上的单独过滤出来再在其中纠错,就是方法笨了些,也不那么有效率

用过hunspell,jamspell,symspell。
hunspell是linux和firefox自带的拼写检查器,goldendict也是用的这个。
symspell算法最强,自带8万高频词,只是低频词需要自己处理词典,词典好效果就好。
jamspell自带30万维基训练结果,上手简单,能跑起来就没问题,够应付了。

symspell和jamspell都有python版,你可以自己试试,看哪个好用。

感谢推荐。刚刚把汉英大V3中的英语单词都提取出来了,去重后有15万多(不包括含有非英文字母的),那我还是用hunspell吧,参考一下GD中相关的实现上手也快些

列了一份汉英大V3的可能存在问题的英文单词,其中有部分是人名和地名,祛除这部分大概有3000多词可能存在错误,常规词典的词头可能匹配不到(可能会有部分能够通过跟全文搜索搜到),可能会有部分新词,可以通过在线词典(比如https://cn.bing.com/dict?FORM=HDRSC6)去撞,只是python我不熟,方便的坛友可以去撞一下,其中的错词能够都修正了,这部词典就完美了
fake_words.7z (19.2 KB)