鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典型语料库的统计词频)

感谢楼主,您的作品很有价值,输入法词库目前波澜不惊,死气沉沉,沉疴旧疾,问题多多。词库界正期待您这样的作品!

下面汇报使用中发现的一些问题。使用环境:从鸿雁拼音输入法Windows 2.0文件包中exe文件解压出的hongyan_pinyin_simp.dict.yaml和hongyan_pinyin_simp.schema.yaml,并把它们放入小狼毫输入法下测试的。所以下面的汇报是针对这两个文件的。

1。部分拼音重码词汇或废词(?)过多:

yishi这个拼音对应的重码词组有403个,词组如下:

意识 yi shi 990458/一时 yi shi 768476/一是 yi shi 519129/仪式 yi shi 485444/医师 yi shi 399739/一十 yi shi 382601/一事 yi shi 303708/一世 yi shi 292129/以使 yi shi 260668/以是 yi shi 239314/以实 yi shi 229793/意事 yi shi 200831/已是 yi shi 169805/疑是 yi shi 152565/亦是 yi shi 141365/议室 yi shi 120126/以示 yi shi 111968/已实 yi shi 106800/议事 yi shi 105733/义市 yi shi 102189/以适 yi shi 99104/义是 yi shi 90780/益事 yi shi 82506/以事 yi shi 69979/以时 yi shi 69029/衣食 yi shi 64401/以十 yi shi 60624/意是 yi shi 60352/议是 yi shi 59868/遗失 yi shi 56521/易市 yi shi 53460/一石 yi shi 49777/一试 yi shi 49646/义事 yi shi 48963/以市 yi shi 48066/以诗 yi shi 44477/伊始 yi shi 43573/以试 yi shi 42970/议时 yi shi 38360/以食 yi shi 35912/一师 yi shi 34495/易使 yi shi 34161/意时 yi shi 34062/一视 yi shi 32666/一室 yi shi 32409/以失 yi shi 31317/已失 yi shi 30656/以石 yi shi 30011/一市 yi shi 29619/沂市 yi shi 28925/异世 yi shi 28118/一实 yi shi 27534/已使 yi shi 27347/易事 yi shi 27303/一失 yi shi 26693/易时 yi shi 26630/以世 yi shi 26253/一式 yi shi 24972/艺师 yi shi 24501/衣室 yi shi 24340/轶事 yi shi 23612/以视 yi shi 22793/易失 yi shi 20759/义时 yi shi 20216/议使 yi shi 20062/艺事 yi shi 19897/义士 yi shi 19802/益是 yi shi 19430/以什 yi shi 18740/艺世 yi shi 18696/伊势 yi shi 18293/一诗 yi shi 18162/以释 yi shi 18022/忆是 yi shi 17946/易实 yi shi 17654/意什 yi shi 17524/易十 yi shi 17453/矣是 yi shi 17188/异事 yi shi 17031/异时 yi shi 16936/宜食 yi shi 16799/易是 yi shi 16749/以师 yi shi 16099/以施 yi shi 16063/意使 yi shi 16056/以识 yi shi 14274/意十 yi shi 14153/伊士 yi shi 13987/一食 yi shi 13700/已十 yi shi 13499/已逝 yi shi 13260/一使 yi shi 13200/以史 yi shi 13034/遗事 yi shi 12777/义世 yi shi 12723/仪是 yi shi 12362/意式 yi shi 11774/移时 yi shi 11765/易诗 yi shi 11459/役士 yi shi 11097/衣是 yi shi 10931/艺是 yi shi 10925/移师 yi shi 9390/宜时 yi shi 9275/谊是 yi shi 8958/仪使 yi shi 8755/义诗 yi shi 8705/医事 yi shi 8544/异是 yi shi 8537/益世 yi shi 8532/役使 yi shi 8465/义实 yi shi 7883/宜使 yi shi 7873/益时 yi shi 7817/逸事 yi shi 7812/以侍 yi shi 7781/易试 yi shi 7716/意实 yi shi 7496/亦使 yi shi 7433/衣时 yi shi 7401/义势 yi shi 7204/议实 yi shi 7169/意适 yi shi 6993/役时 yi shi 6981/依时 yi shi 6745/衣饰 yi shi 6707/一士 yi shi 6660/意失 yi shi 6603/以始 yi shi 6581/遗世 yi shi 6305/以士 yi shi 6114/亦时 yi shi 6108/尾事 yi shi 6077/易逝 yi shi 6070/依市 yi shi 5884/以势 yi shi 5673/以饰 yi shi 5625/议十 yi shi 5504/异石 yi shi 5497/一适 yi shi 5409/已时 yi shi 5312/亦十 yi shi 5243/亦似 yi shi 5236/义十 yi shi 5177/一矢 yi shi 5129/义师 yi shi 5122/医士 yi shi 5078/翼式 yi shi 5070/医世 yi shi 5048/艺实 yi shi 4972/亿市 yi shi 4963/益实 yi shi 4866/议市 yi shi 4777/壹拾 yi shi 4738/奕世 yi shi 4724/役是 yi shi 4714/义失 yi shi 4639/已试 yi shi 4455/义使 yi shi 4349/一识 yi shi 4312/尾是 yi shi 4303/伊什 yi shi 4286/尾时 yi shi 4200/亦失 yi shi 4166/以湿 yi shi 4052/易识 yi shi 4008/意市 yi shi 3993/矣使 yi shi 3963/已事 yi shi 3932/一施 yi shi 3813/意食 yi shi 3770/译是 yi shi 3762/医是 yi shi 3628/一狮 yi shi 3596/已释 yi shi 3501/猗氏 yi shi 3471/医时 yi shi 3347/移是 yi shi 3342/译时 yi shi 3339/议示 yi shi 3328/一史 yi shi 3266/议适 yi shi 3266/衣十 yi shi 3214/疑时 yi shi 3213/彝士 yi shi 3209/亦师 yi shi 3206/逸诗 yi shi 3199/易氏 yi shi 3183/伊是 yi shi 3178/宜市 yi shi 3168/邑市 yi shi 3089/义释 yi shi 3051/疑事 yi shi 3044/义史 yi shi 3042/矣时 yi shi 3009/一释 yi shi 2991/宜实 yi shi 2988/艾氏 yi shi 2947/艺时 yi shi 2944/依世 yi shi 2930/矣世 yi shi 2911/宜是 yi shi 2906/驿使 yi shi 2892/逸史 yi shi 2848/易世 yi shi 2836/忆时 yi shi 2811/蛇是 yi shi 2756/逸士 yi shi 2754/易师 yi shi 2734/乙十 yi shi 2702/椅是 yi shi 2672/矣诗 yi shi 2602/益十 yi shi 2602/遗诗 yi shi 2568/易适 yi shi 2567/医室 yi shi 2562/译实 yi shi 2553/疑使 yi shi 2518/意试 yi shi 2497/以誓 yi shi 2497/易视 yi shi 2489/议食 yi shi 2459/医史 yi shi 2455/已施 yi shi 2438/亦适 yi shi 2434/一势 yi shi 2426/意视 yi shi 2414/疑释 yi shi 2412/已适 yi shi 2394/亦实 yi shi 2393/依是 yi shi 2383/翼势 yi shi 2331/义式 yi shi 2304/益市 yi shi 2300/宜施 yi shi 2290/移视 yi shi 2254/蚁视 yi shi 2241/翼是 yi shi 2211/以仕 yi shi 2207/义视 yi shi 2202/艺室 yi shi 2175/医食 yi shi 2166/意施 yi shi 2163/意诗 yi shi 2157/以室 yi shi 2157/以弑 yi shi 2144/易食 yi shi 2141/倚势 yi shi 2133/易士 yi shi 2104/艾什 yi shi 2087/以似 yi shi 2083/姨是 yi shi 2016/衣使 yi shi 2011/以尸 yi shi 2005/亦视 yi shi 1952/义始 yi shi 1950/仪事 yi shi 1948/宜适 yi shi 1919/意世 yi shi 1905/艺十 yi shi 1858/亦世 yi shi 1837/译史 yi shi 1833/夷使 yi shi 1833/易施 yi shi 1794/艺视 yi shi 1782/伊氏 yi shi 1771/意释 yi shi 1757/依石 yi shi 1748/亿是 yi shi 1739/依师 yi shi 1704/依实 yi shi 1702/医湿 yi shi 1693/役事 yi shi 1692/移式 yi shi 1680/尾石 yi shi 1672/益使 yi shi 1671/以狮 yi shi 1662/易室 yi shi 1642/已识 yi shi 1642/以谥 yi shi 1640/以式 yi shi 1635/绎史 yi shi 1621/艺市 yi shi 1610/宜室 yi shi 1604/矣始 yi shi 1604/尾狮 yi shi 1579/矣士 yi shi 1576/亦事 yi shi 1573/依事 yi shi 1558/以氏 yi shi 1540/忆似 yi shi 1529/移事 yi shi 1525/一始 yi shi 1524/异士 yi shi 1510/移示 yi shi 1509/义似 yi shi 1501/宜十 yi shi 1494/已食 yi shi 1475/邑士 yi shi 1468/佚失 yi shi 1464/仪实 yi shi 1460/一示 yi shi 1460/矣事 yi shi 1457/衣湿 yi shi 1455/以矢 yi shi 1453/艺使 yi shi 1440/译诗 yi shi 1439/倚石 yi shi 1438/议施 yi shi 1429/役失 yi shi 1426/伊实 yi shi 1425/依十 yi shi 1417/毅是 yi shi 1407/逸是 yi shi 1404/亿实 yi shi 1403/仪时 yi shi 1390/意仕 yi shi 1386/艺史 yi shi 1384/宜事 yi shi 1375/意始 yi shi 1371/益食 yi shi 1353/仪师 yi shi 1348/以拾 yi shi 1336/依势 yi shi 1335/异室 yi shi 1331/医实 yi shi 1323/异食 yi shi 1320/伊尸 yi shi 1301/矣十 yi shi 1300/议始 yi shi 1300/椅使 yi shi 1295/怡是 yi shi 1291/亦食 yi shi 1283/一尸 yi shi 1277/役十 yi shi 1277/意室 yi shi 1256/绎时 yi shi 1251/异势 yi shi 1247/一侍 yi shi 1243/译事 yi shi 1234/异实 yi shi 1225/尾十 yi shi 1225/意示 yi shi 1222/意师 yi shi 1221/沂师 yi shi 1217/伊施 yi shi 1201/异使 yi shi 1191/艺试 yi shi 1180/译师 yi shi 1175/倚恃 yi shi 1174/医视 yi shi 1171/夷是 yi shi 1160/衣师 yi shi 1156/矣史 yi shi 1156/移实 yi shi 1152/义殖 yi shi 1145/议师 yi shi 1141/邑是 yi shi 1141/亿时 yi shi 1133/亦诗 yi shi 1123/依式 yi shi 1118/亦始 yi shi 1105/益师 yi shi 1090/衣诗 yi shi 1088/矣师 yi shi 1061/诣世 yi shi 1060/已势 yi shi 1059/仪十 yi shi 1057/益视 yi shi 1055/已视 yi shi 1054/一豕 yi shi 1053/艺饰 yi shi 1048/夷诗 yi shi 1041/佚事 yi shi 1037/衣市 yi shi 1034/一饰 yi shi 1032/移世 yi shi 1032/译室 yi shi 1030/依识 yi shi 1028/蚁狮 yi shi 1000/遗矢 yi shi 1000/蛇石 yi shi 1000/伊石 yi shi 994/遗史 yi shi 994/议似 yi shi 991/议世 yi shi 990/易示 yi shi 980/异十 yi shi 978/一氏 yi shi 962/议谥 yi shi 941/蚁食 yi shi 933/已似 yi shi 929/亦识 yi shi 926/以嗜 yi shi 926/议视 yi shi 923/议失 yi shi 922/宜示 yi shi 918/易始 yi shi 906/伊市 yi shi 901/一湿 yi shi 896/易释 yi shi 893/邑事 yi shi 882/疫时 yi shi 881/
2。拼音注音芜杂,很多拼音下正确的错误的都有,容错拼音过多,如:
|长春市朝阳区|chang chun shi chao yang ou|1000|
|—|—|—|
|长春市朝阳区|chang chun shi chao yang qu|1000|
|长春市朝阳区|chang chun shi zhao yang ou|1000|
|长春市朝阳区|chang chun shi zhao yang qu|1000|
|长春市朝阳区|zhang chun shi chao yang ou|1000|
|长春市朝阳区|zhang chun shi chao yang qu|1000|
|长春市朝阳区|zhang chun shi zhao yang ou|1000|
|长春市朝阳区|zhang chun shi zhao yang qu|1000|

很多含有 石 字的词,石的音是dan:

image
image

想输入 呢:
image

3。以非专业人士眼光看,词库原始词频不合理:
想应该排在相的前面吧?
image
想输入 词库 一词:

image
想输入 上屏 一词:

image
想输入 选取 一词:
image

想输入 词汇 一词:
image

4。缺一些常用词。既然词库那么大,这些常用词不应该缺的,如:

原文件
大词库

5。下面这种情况是为什么。
jingran 首词是 竟然,cunzai首词是 存在,输入 jingrancunzai,打出 经然存在?为什么不是 竟然存在?
6。拼音错误
cai->在,luo->路(luo拼音很多字都不对)

image
image

6。目前手机词库和windows词库是是同一个吧?90多兆的大小,手机承受的了吗?

2 个赞

我本人并没有对词频排名干涉

你说的 “大词库”这样的词语在真实的语料库统计数据中肯定有,但是排名在180万以后。

你说的yi shi拼音词语在古文中非常常见,这是不可避免的,兼容古文,就必须接受古文词库中的常用拼音词语。

目前是机械分词 ,人工审核成本太高。230万,你就是从头到尾浏览一遍,得花费多少时间?

多音字的不同拼音频率调整,这个有一个多音字频率辞典,不过数量太少。所以没有采纳

你提到的拼音错误问题,其实是拼音中多音字拼音标注选择问题,只需要保证有正确的拼音就行了,既然现在没有既准确又大又全的词语拼音库,暴力穷举是唯一可行的办法 。

想象 很美好,现实很残酷。用多了几十兆废词空间换来正确拼音一定出现,这个代价是可以承受的。

除非有几千几万人帮助我整理,或者我花钱请同样人数的人专职工作,否则做不到。

输入法是一个庞大工程,谷歌微软都在上面栽过跟头。

目前的选择虽然不是最完美的,却是折衷的,可行的方案。

现在手机一般都是几个GB起步,我的手机都有100GB,90MB一般手机绝对扛得住,现在大型手机游戏都是1个G以上。


这两个字拼音正确
第一张图来自《辞源》
第二张图来自《汉语大字典 第二版 九卷本》

本输入法自带的拼音库,可以毫不夸张地说,是你能在互联网上找到的最准确的拼音库。
请你相信它的准确性,一般情况下,应该是你不知道有这个读音。

1 个赞

竟然 和 存在 两个词语在两个词语的集合中是常见词
在四个字的词语中,显然“竟然存在”更常见,不过因为排名靠后没有入选。

输入法的词库里并没有“经然存在”,是拆成“经/然/存在”,如果需要更准确的结果,在 jingran后面加一个空格就可以了,输入法没有人那么智能
输入
“jingran cunzai”

竟然存在 顺利打出,这就是输入法初始默认的设置是保留整句输入引擎的,没有采用空格直接上屏的原因

1 个赞

安装了Windows版鸿雁输入法,提示正在维护中,然后打不出汉字…
是词库的网络服务器在维护吗?这个输入法还受服务器维护的影响吗?

感谢楼主认真回复。

楼主有些执着于词语数量了。照楼主的方向,确实会产生大量重码。但结合坛友回帖来看,很多“词语”实在没有存在的必要。

五笔的精髓就是在重码与输入中间找到一个平衡,所以38楼的朋友表示只打单字,也有很多朋友不开联想,尤其是实体键盘输入场景。

五笔输入,需要知字形才能编码,在此前提下,码表加入过多词语也没用,因为一般人脑袋里能“浮现”的词语真的不多,即便照稿打字,也还是需要拆分出词语,同样依赖于掌握的词汇数量。同样的道理,一句七言诗每字一码取七码,不见得比拆字词输入更效率。

或者楼主可以转个向,做减法,保留真正最常用的词语,在重码数量与词语数量之间做一个平衡。

我自己做亦形输入法码表时也是这样考虑的,所以放弃了用海峰词库合并unicode13全单字,而用了另一个个人开发者五笔输入法的词库来合并,那个词库词语更少,相对用海峰词库来合并减少了重码,加上生僻字往后排,候选要翻页的情况也不多,如果不是手机用,词语都省了,只要单字。有重码的情况下,最常用的几乎都排第一就可以盲打,常用的都在第一页就不用翻页,有效减少“输入卡顿”,这才是按词频排序的目的。

词库过大,人工计算词频来确定候选顺序肯定比不过大厂的云输入,也如楼主所说,根本没那么多精力,各人自己养的词库会更适合日常输入场景。而要离线,合适的词库和优秀的排序就很重要了,就五笔输入法来说,小而精比大而全更好。

1 个赞

建议用 @mozillazg 整理好的汉字最常用读音调整下词序:

完全离线,不会搜集你的隐私。

安装vc 2015运行库重启一下试试

1 个赞

重启过了不行,这个vc 2015运行库安装的时候提示已经安装了另一个版本,之前装过了微软运行库合集

我用 vc 2015 最新版本编译 的
cn_visual_studio_community_2015_with_update_3

可能你的运行库与后来的2015_with_update_3不兼容,卸载老版本,安装新版本。

其实我对网络上的所有拼音库都做过分析研究。

加入 unicode kHanyuPinlu
这个数据库或许可以达到你的效果

因为这个数据不够大,

如果在古文输入环境,就不适用了

网盘里有一个图像化的百万词库管理工具,有需要可以自己调整一下

1 个赞

我装的是这个,按理说更新才对:

在 虚拟机 新装的 原版系统win 7 32 bit 64bit,没有安装任何软件,只安装输入法自带的运行库,可以正常工作。如果还找不到原因,应该是疑难杂症了。建议把系统所有的 vc运行库全部卸载 安装输入法自带的2015 运行库试试。

目前已知 win 11不兼容,win 10不兼容到没有听说过。

哦 我用的就是win 11,怪不得

我想这个输入法和五笔单字模式相比的好处是

你会看到以词组为单元的输入,每一个单字重码选择变得很少,不需要按数字键了,以词组作为输入单元,使用者会发现输入的词语一般人会不会使用。

我也想保留核心词汇,排名300万以后的词语仍然有认识的但相对罕见的。
无非就是2个字的词语,三个字的词语简单码没有了,按键次数增多。

有需要可以使用网盘的辅助工具百万词库图形化词库管理软件加入你需要的词语简码方案

计算四码最大容量

26^4 约等于45.7万

本输入法词汇量是230万,绝大部分是 2-4个字的词语

不管如何优化,重码率仍然很高

支持楼主!!

求楼主解答,还没用。

首先,我使用的是双拼,请问能否使用?

第二,这个词库能否自定义修改?我自己有词库,能否导进去?

第三,能否记住用户造词造句

1 个赞

支持5种双拼,需要你手动切换
网盘有一个图形化的词库修改工具,支持百万词库
可以修改配置,支持用户造词,造句,压缩包的小狼毫助手可以修改

1 个赞