求unicode五笔码表,兼谈词典检索

好像海峰五峰收字最全,有七万多字,但没找到可以下载的地址。原来好像有五笔爱好者论坛等等有交流码表,现在论坛没了。在github找了个极点的,比海峰少不少。
字有音形义,检索时自然也有这三个途径。字音不用说,用得也不多;字义检索就是所谓的反查,可以对释义分词后做聚合处理,也可以借助近义词、反义词做进一步扩展。
最常用最复杂的是字形检索。一般都是用输入法输入整字进行搜索,但因为受输入法平台或收字限制,不得不在词典中对字形检索作补充。
比较各种字形检索法,部首、笔画、部件、四角、五笔,最简单的应该是笔画检索,最全的码表应该是中华书局的古联,可惜拿不到;最快速但最难上手的应该是四角与五笔,五笔比四角重码率低,但门槛也稍高些,重要的是能否找到十万字左右的码表;部件检索检索速度居中,但好在有现成的可用,并且涵盖字数最多。
不论如何,加上四角与五笔,至少多一些选择。当所用输入法可以输入时,当然直接输入;如果不行,可以考虑使用四角号码或五笔码;如果还不行,再用撒手锏“部件检索”。

1 个赞

自问自答吧,不知有没有更好的数据
https://pan.baidu.com/s/1hq5kedm#list/path=%2F

多年前的存货,不知是否合用。

1 个赞

多谢!极爽词库单字七万多,海峰词库九万多,合起来十万六千多,基本能够满足需要了。但有些字对应的编码错误,比如
image

当年耍两下就“收藏”起来了,真没注意里面是否有错误 :joy:

中華大字典 70,194 字的五筆畫
五筆 70194.zip (585.9 KB)

1 个赞

github有新世纪版五笔字型 Unicode CJK 超大字符集编码数据库,不仅齐全,而且可靠,完全可以抵销重新学习新版规则之苦 :joy:

http://98wb.ysepan.com/
98五笔资源库,里面的超集有10万零427个汉字。
这个团队搞得码表很好用。

1 个赞

多谢!不过没找到你说的超集,目录上有超集的是字体文件。
五笔弄出个86、98、新世纪,我用的是86,最流行的也是86,暂时先加个86吧。

码表丨词库→ Rime-Yaml→ wubi98_U.dict.yaml

86编码不规范,新世纪规则和标准混乱不堪。98五笔属王码中的上品。

1 个赞

海峰五笔在win10下好像不能使用了吧?

是想把五笔码加入词典,摆脱对输入法的依赖

https://github.com/CNMan/UnicodeCJK-WuBi这里有。
附件是以前用上面的数据自己整理的,当时还没有扩展G区的86五笔码,自己手动编的,综合了海峰还是亦形的词库,生僻字和日常输入都能满足。亦形五笔直接导入开启生僻字就可以用。

全字库五笔.txt (1.9 MB)

1 个赞

多谢分享,亦形可以用于win10吗?

Windows使用,手动转成极点五笔的码表格式导入码表(常见的码表转换工具似乎都不支持utf8,输入法类似问题)。不过极点早就不更新了,win10兼容性一般。目前感觉能用且好用的只有极点。

1 个赞

黄狗五笔超大字符集版,就包括你要求的全部的86版五笔全部unicode编码。

多谢,有文本码表吗?不知道是否比上面的全字库更全? :grinning:

有文本码表,你自己直接导出即可,这个是最完整的,远远超过海峰。

1 个赞

多谢!很好用 :+1:

1 个赞

海峰单字92693,加上极爽106290,再加上全字库和黄狗,合起来共130872,其中有不可见字符和符号。
感谢以上所有朋友的热情帮助!

1 个赞