鸿雁拼音输入法小体积安装包发布了

把C:\Program Files (x86)\Rime\weasel-7.0.0.0\data\default.custom.yaml
方案改成 hongyan_pinyin_simp_pyjj
请问是改文件名还是改里面的内容?我没修改成功,又用不了了。

C:\Program Files (x86)\Rime\weasel-7.0.0.0\data\default.custom.yaml
文件中

patch:
schema_list:
- {schema: hongyan_pinyin_simp}

改成

patch:
schema_list:
- {schema: hongyan_pinyin_simp_pyjj}

“C:\Program Files (x86)\Rime\weasel-7.0.0.0\data\default.yaml”文件中添加

schema_list:
- schema: hongyan_pinyin_simp_wenyi

1 Like

修改后 点击重新部署

实在无法生效,运行 cmd命令

del /F /S /Q “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\.yaml"
del /F /S /Q "%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build\
.yaml”

点击重新部署,这次一定会生效

简单试用了下。总共输入不到一百字。简单反馈一下。
1、可能是因为采用rime改版的原因,一安装就直接把我原来的rime给删掉了。这对rime老用户来说不太友好。
2、默认输入,无法使用.和数字直接上屏。
候选项是对的情况下,直接按.是不能让候选项上屏,并在后面输入“。”的。
在输入词组短语时,用数字键选择,会使该项成为唯一候选项,但仍需按空格键才能上屏。
3、输入法安装后重启才能生效。
这年头已经没有这样的操作了,会让小白不满意。
4、整句输入时,常用词组的词频并没有居前,而是取大优先。
你从海量资料提取出来的词汇压制了正常的词组,如下图中看不到试试,反而有“时市政”这样奇怪的词组在候选,我翻到第三页才找到。


![Snipaste_2022-10-28_12-51-40|543x353]

打字的词频权重也低于大字和“一般打”“一般达”这样的。
(upload://8qCswLKeOoCAInilFN5GvlqUl36.png)
Snipaste_2022-10-28_13-01-35


Snipaste_2022-10-28_12-42-09

5、连自家输入法的名字也没有词组吗?
6、个人认为,还是先把词频搞好,在无法整句识别的拼音输入法,字词的词频很重要,不要把自己提取的那种词的词频高于常用字词。
或者你可以考虑将词性副词动词名词主语谓语宾语,在不同位置时字词的权重有所变化。

1 Like

鸿雁输入法是新出来的词语,当然不能识别出来。我并没有干扰语料库统计的词频。

Snipaste_2022-10-28_13-44-35
dazi 拼音前面的候选词语有四个,在词频统计确实是排前四名的,如果按照动词筛选,“打字”排第一
如果按照名词筛选“大字”排第一。

您提到的词汇分类,目前成熟的按照属性(名词动词副词)分词数据库,只有北京大学语言研究所一家有,而且价格不菲。而且只有几十万的词汇量。

我也想从语法的角度获得分类词汇的数据,前面的整句输入的准确率错误的词语就是来源于部分词语排名太靠前,而把最佳的词汇挤到后面造成的。

已经很不错了

内存占用也可以

加油

临时市政 467 68
临时市政府 167 25
临时市政局 194 21
时市政 1068 200
时市政府 393 80
时市政局 207 23

这些是深度学习梯度下降算法获得的分词。

在机器眼里,这确实是一个独立的词汇。

几种方法都试过了,不知哪里的问题,输入设置中也能显示拼音加加列表了,也重新启动电脑了,但就是打不出汉字来(只能出英文)。算了,暂时放弃,等待更新的版本。试用了两个多小时,只提两个建议吧:1、在精简文艺版中增加双拼方案;2、允许用户自造词。没有这两个,会限制很多人使用的。软件设计者在词库方面下了很大功夫,但在输入法的使用方便上总是考虑不周,后者应该有所改进才好。
图像 003

抱歉,您先将就用完整版的双拼吧。

这是四叶草的候选项,我看一下,居然也有“大资”“大自”“达子”这样的词组,查了一下,“大自”未查到。“达子”通“鞑子”,“大资”出处一是《商君书》和《避暑录话》,仅在《汉典》《汉语大词典》中查到,可能古代汉语也有?再就是百度百科的一处词条。
至于你打出的“达自”和《达资》在我的godendic挂载的词典中没找到。

也就是说,词频工作很重要,否则就会出现现在不用的字词把常用的给挤到后面去了的情况。

其实跟论坛里一个网友提出的想法比较像,查词最好是从词频最高的小学词典开始,最常用字词,然后中学、最后高阶和足本。
对词频来说同样如此,从中小学课本词组、新华字典、现代汉语词典中提取出的字词依次赋予从大到小的系数abcdefg,找一堆口语类素材A,查在里面出现的频率。找时政新闻类文章B,查在里面出现的频率,同样的,近现代文学、网络小说,古代文学等也如此。

然后根据一定算法计算(最简单的相乘相加求总),得出一个适合大陆简体的词频表,试用看是不是适合实情,也可以与搜狗对比。

不断调整赋予的系数,直到得出一个满意的词频表。

反正我是准备删掉词库中出现的大资、达子、大自,对普通用户来说根本没意义。

爱大自然 22642 1501
把大自然 5837 1021
白老大自 173 6
白老大自己 41 4
白老大自然 74 5
保护大自然 4507 792
北大自主招 1420 186
北大自主招生 1389 186
北大自主招生考试 71 7
北大自主招生面试 51 4
北大自主招生专家委员会 72 7
不大自 3330 397
不大自然 1613 213
参加北大自主招生 94 11
成大自由中之社会进步及较善之民生 106 8
出大自然 3661 736
从大自然 11137 1348
促成大自由中之社会进步及较善之民 107 8
大自 1669627 1748
大自己的力量 1396 272
大自己的势力 2763 524
大自考生 145 28
大自留 163 18
大自贸 1443 181
大自贸区 1090 142
大自鸣钟 605 96
大自然 1399741 1748
大自然保护协会 4991 523
大自然本 2392 481
大自然本身 1510 307
大自然宾馆 34 7
大自然参 81 8
大自然地板 3801 376
大自然地板的 87 8
大自然的安排 192 46
大自然的报复 586 126
大自然的产物 902 227
大自然的常数 482 9
大自然的惩罚 412 92
大自然的定律 126 9
大自然的斗争 249 45
大自然的恩赐 5656 961
大自然的风 4676 867
大自然的关系 914 187
大自然的规律 6171 869
大自然的鬼斧 25185 1372
大自然的鬼斧神 25052 1371
大自然的鬼斧神工 24387 1368
大自然的环 1224 308
大自然的基本 131 26
大自然的景 1986 423
大自然的力量 9211 1083
大自然的灵魂 133 16
大自然的秘密 481 97
大自然的妙手 29 3
大自然的奴隶 69 6
大自然的气息 6603 902
大自然的无 4676 808
大自然的无限风光 205 43
大自然的五基本法则 46 3
大自然的一个 398 102
大自然的意志 84 15
大自然的真 863 208
大自然的主 402 75
大自然的主人 184 19
大自然斗 260 37
大自然斗争 184 30
大自然赋 13173 1421
大自然公司 243 19
大自然基金 108 14
大自然家居 1911 137
大自然建 73 16
大自然面 4001 713
大自然面前 3844 690
大自然母亲 1383 254
大自然前 43 4
大自然似乎 310 64
大自然索取 360 80
大自然网 17 3
大自然文学 1144 125
大自然物 236 61
大自然物业管理有限公司 9 3
大自然学习 505 119
大自然幼 15 3
大自然灾害 20595 1242
大自然灾害等 432 91
大自然灾害发生 264 34
大自然灾害和 407 92
大自然灾害情 184 15
大自然展开 80 9
大自然这根 30 4
大自然制 58 14
大自然制药有限公司 25 5
大自然中的 16514 1504
大自然中去 6325 920
大自然资 671 163
大自然作 1791 300
大自然作斗争 368 61
大自体 630 34
大自由 19173 1569
大自在佛 121 8
大自在宫 1127 20
大自在宫的 305 3
大自在剑气 297 3
大自在剑气的 84 3
大自在境 178 11
大自在天 6985 653
大自在天子 86 9
大自在无 98 6
大自在有 123 3
大自治 1883 309
大自治市镇 148 27
大自主 19975 1310
大自主权 1269 220
大自主权的 94 14
大自主选拔 105 15
大自主选拔录取 45 3
大自主招 3463 400
大自主招生 3399 397
大自主招生笔试 51 5
大自主招生面试 103 8
到大自 42203 1646
到大自然 40881 1638
到大自然中去 5167 812
得大自在 7279 768
地大自然 264 50
地享受大自然的 429 73
的大自 78675 1693
的大自然 74976 1689
的大自然定律 34 3
的大自在剑气 54 3
的夸大自体 124 13
点不大自然 177 21
对大自然 51363 1667
发生重大自然灾害 431 93
发生重大自然灾害等 26 6
发展壮大自 2096 486
发展壮大自己 1417 340
放大自己的 6519 861
服大自然 2484 447
服大自然的 1475 250
改造大自然 627 76
改造大自然的 255 24
感受大自然 22679 1349
感受大自然前所未有的报复 39 3
告大自 14 4
个大自 8013 1087
个大自然 6366 931
个大自在宫 48 3
关于大自然 658 129
广大自考 197 42
广大自考生 136 26
归大自然 16798 1365
和大自 29159 1651
鸿蒙大自在 185 4
鸿蒙大自在境 133 4
鸿蒙大自在境后期 34 4
护大自然 7996 1088
回归大自然 14723 1316
获得北大自主 37 5
及大自然 1937 471
加拿大自 4680 604
加拿大自治 779 102
加拿大自治领 685 88
江大自 87 13
交大自主 164 19
交大自主招生 140 15
接触大自然 7277 919
解大自然 2750 564
界大自然 429 56
尽情地享受大自然的 377 61
尽情地享受大自然的风光 144 29
近大自然 31886 1518
就是大自然 6904 954
开了大自 71 11
开了大自然的秘密 39 3
科大自 386 65
科大自主 191 29
夸大自 10567 1251
夸大自己 8470 1168
夸大自体 552 25
夸大自体的 210 14
扩大自 55444 1697
扩大自己 43091 1682
扩大自己的 35365 1653
扩大自己的势力 1739 359
扩大自留 133 13
扩大自留地 104 11
扩大自主 805 128
扩大自主权 352 23
扩大自主招生 59 9
老大自 2808 450
老大自己 556 81
老大自然 182 31
了大自 34267 1640
了大自然 32791 1633
了大自然的秘密 42 4
了大自在 161 25
了大自在宫 60 3
么大自然 234 52
明大自然 149 27
南科大自 161 24
南科大自主 114 18
年北大自主招生 29 4
您可以尽情地享受大自然的 332 55
您可以尽情地享受大自然的风光 122 25
您可以尽情地享受大自然的无限风光 160 32
企业扩大自主权 77 5
亲近大自然 20385 1382
庆大自然制药有限公司 16 3
区大自 24 5
热爱大自然 15525 1395
人与大自然 5503 933
人与大自然的关系 353 52
如果大自然 309 58
山大自 692 129
山大自己 188 25
赏大自然 7503 994
上海交大自主 66 5
上海交大自主招生 57 4
什么大自 96 21
世界大自然 111 12
世界大自然基金 63 4
市大自然 70 20
是大自然 102989 1683
是大自然的 42707 1650
是大自然的产物 432 114
是大自然的一个 200 50
是大自在宫 88 3
是有点不大自然 46 5
受大自 45221 1566
受大自然的 25467 1450
受大自然的风光 209 42
受到大自然 9144 1151
四大自 9376 881
四大自贸区 388 49
四大自由 4378 409
他化大自在 194 5
陶醉于大自然 148 37
特大自然灾害 6833 461
特大自然灾害情况通报会 175 13
特大自然灾害死亡人数上升至 225 6
特大自然灾害遇难 543 34
特大自然灾害中 882 56
天地大自然 189 33
同大自然 3453 629
同大自然作 114 12
同大自然作斗争 102 11
同的大自然 37 6
为大自然 14625 1482
为什么大自然 69 13
武大自 286 31
武大自主 44 6
物是大自然的 18 6
西大自 83 15
现大自然 5009 899
享受大自然 18108 1370
享受大自然的 8974 1121
享受大自然的风光 169 33
享受大自然给予的温馨和快乐 37 4
向大自然 8635 1188
向大自然进 214 9
向大自然进军 171 7
向大自然进军的 66 5
向大自然开 102 6
向大自然开战 85 5
向大自然索取 325 72
向大自然学习 412 97
写大自然 924 183
欣赏大自然 6401 880
行扩大自主权 51 4
亚历山大自 398 54
亚历山大自己 177 23
因为大自然 2326 466
因重大自然灾害 11 3
由大自然 946 223
有点不大自然 163 18
于大自然 32928 1646
与大自然 67944 1687
与大自然的 15131 1464
与大自然的关系 600 114
宇宙大自然 822 141
在大自然 62183 1685
在大自然面前 2946 563
在大自在宫 75 3
造大自然 891 146
造大自然的 326 45
战大自然 188 42
这是大自然 7842 1066
着大自 20657 1540
着大自然 20409 1532
征服大自然 875 185
征服大自然的 361 71
整个大自然 2427 384
整个大自然都 95 20
指大自然 553 132
中大自主 59 10
中大自主招生 50 9
重大自然 13623 1183
重大自然灾害 11072 1042
重大自然灾害等突发 9 3
重大自然灾害和 351 80
重大自然灾害或 392 84
重庆大自然制药有限公司 12 3
壮大自 28269 1654
壮大自己 23126 1632
壮大自己的力量 1014 191
做大自然的 857 122

深度学习不要神话它。
像这里,如果5字算分词,四字“时市政府”算分词,那“临时市政”算不算?
现在的分词技术也好,深度学习也好,还远远不到成熟的时候。

我算看明白了,机器只是机械地统计任意分割的“词组”在资料中出现的频率,出现的越多,就把它看成一个词。
恰恰“大自”这个前后拼接的“词”在收集的资料中出现了足够多的次数,于是变成了那个深度学习认可的“词”。
该想想怎么避免这种,就像用搜索引擎可以用-来屏蔽不需要的信息。人是给它制定规则的。

再问个小白问题:ctrl+grave,请问什么是grave 键?
不用回答了,刚试了下,就是~键啊。但这样切换也太笨拙了吧?我建议还是参考主流输入法的一些流行做法为好。

目前只有深度学习梯度下降算法可以获得比较多的可靠的词汇。

在机器眼里,大自 这个组合是高频词,而且词语前后存在不少变化的组合词汇也能被成功识别。

机器仅仅从词频的角度是不知道不应该在这两个字的前后划分一个边界的。

而只有人知道。

机器学习存在极限的,极限的存在就是因为机器获得的信息和人是不一样的。

机器只知道统计数据和统计相关性,并未考虑语义 上的解析。

这个应该是mac系统的
你的精简版拼音加加,新鲜出炉

就像你最后说的,机器不考虑语义解析,但人得考虑。
出现“大自”这样机器解析出来的“词”,不可怕,但人得给它设定规则。
比如,我们可以将认可的、常用的词赋予更高的权重。
小学中学学的词10万,现代汉语词典1万,古代汉语词典100,
口语资料
10万,报刊新闻5万,近现代文学1万,网络小说1000,古代资料100。

或者利用词典:
词典分成常用权威型,功能型,足本型,繁体、网络等,分别赋予不同类型权重,再结合在词典中查得词典数量算进去。

这样,即使那些机器分词错误,出现率高也不怕,权重直接把它平衡下去了。

现代汉语词典有5.5万词语,也有不少生僻词在语料库是罕见的几乎不用的甚至不合理的。

开源的分词库、深度学习获得的词汇会出现各种虚词的常见用法,缺点是有不好的不当分割的词汇。

仅仅靠现代汉语字典,百度百科词条是无法覆盖虚词,副词这些辅助词语的习惯用法的。

鱼与熊掌不可兼得,只能采取折衷的方案。

不当的词语,可以通过用户词频打压下去。

谢谢!谢谢!我再试试。

2 Likes

有些标点符号不知怎样输入,比如 · ,原先用百度可以用拼音拼出来。这个输入法如何找到标点?另外,在文艺版精简版中还是不知道怎样将自造词保留下来?需要用“用户词典管理”吗?不是像其他输入法那样只要造好词,就自动保存了?