feiwu
1
我在所有词典软件都提过,希望完善简繁转换,完善异体字关联。
无奈,没有一个实现的。
万幸,AI时代搓一个也不需要懂代码。
GD匹配不到「鍾吕」和「鐘吕」
因为在当前的「简繁转换」下,「吕」的「繁体」是「呂」,「钟吕」的「繁体」必须是「鍾呂」或「鐘呂」,而不能是「鍾吕」或「鐘吕」。
同理「黄钟」匹配不到「黄鍾」和「黄鐘」,因为「黄」的「繁体」是「黃」。
GD匹配不到「黄锺」
GD匹配不到「钱锺书」
GD匹配不到「目无馀子」
GD匹配不到「太平天囯」
GD匹配不到「穀阳县」
GD匹配不到「幹办」
GD匹配不到「閤门」和「閤門」
GD匹配不到「江皐」和「江臯」
GD匹配不到「發霉」
GD匹配不到「昆侖」
GD搜不到「重復」
词典收藏得再多,搜不到,等于零。
winn
2
你这个压缩文件里是什么?是个脚本还是应用?
你说的这个问题(简繁异体字)其实有个简捷的解决办法:用拼音组个词头就可以了。拼音不要声调,有重码时合并成一个词条,拼音指向汉字词条。
feiwu
3
终于把exe整出来了。
ToyMDict.zip (14.9 MB)
开源地址: asgsdbrseg/ToyMDict: 一个MDict玩具,简称TMD,用于查询mdx,mdd。
GD匹配为0,挺好。
opencc是输出工具,所以它最重要的是精确。
mdict是输入工具,它需要的不是这种精确。
尤另我困惑的是,GD虽然引用了opencc,却没有使用opencc的算法。
opencc的算法,以「五云溪」为例
匹配[五:len](五云溪),返回空
匹配[五:len-1](五云),返回「五雲」
匹配[溪:len](溪),返回「溪」
所以「五云溪」返回「五雲溪」
GD能匹配「五雲」,却匹配不到「五雲溪」
说明它在第一步「五云溪」返回空后,直接逐字匹配了单字。
我已经完全放弃「让程序员懂汉字」这种不切实际的想法。