鸿雁输入法——整句输入法中一颗冉冉升起的新星

G8tVRaREgbTrUy9xLnhX · 2022 年9 月 14 日 12:23

请问一下这软件是开源的吗？我主要想确认一下有没有上传用户输入信息什么的。

hongyan30 · 2022 年9 月 14 日 16:21

rime系列输入法都不会上传用户的隐私

hongyan30 · 2022 年9 月 14 日 16:48

殆知阁和四库全书是目前第一大和第二大的古文语料库。

你提到用古文的数据库增添输入法词库的文学色彩，这样的美梦我也曾经做过。3.0版本之前就包含殆知阁的文本数据，包括道藏易藏医藏佛藏子藏史藏等等。

采用古文数据库后，生僻词大量增加。这些是现代文中几乎用不到的。

古文数据库，不少文章没有标点，原来分析词语的长度是2~4个字的词语，现在词语长度升级到2~16个字的词语，古文数据库中没有标点的文章分析，会增加长度相对较长的废词的数量，分析复杂度和时间也会增加。

EPUBEE全站电子书，百度百科里有不少目前仍然比较流行的古文数据。

另外，文章没有提到的高权词库，包括
唐诗三百首、宋词三百首、老子道德经、论语、诗经的整句
李白诗句全集

这些输入法里都有。李白的诗句可以随便测试一下。

本来我想收录全唐诗的，一分析发现，这个数据库太大，因为Windows轻量版最多只能使用约260多万的词汇，一个全唐诗就50万+的数据，其他的词汇如何保证足够的数量。

经典的古文作品其实只是少数，大部分古文的质量并不高。

希望是美好的，现实却不一定和希望的那样美好。

hongyan30 · 2022 年9 月 14 日 17:03

软件是在开源软件的基础上制作的，改动的源代码已经公开。也就是说你可以审查源代码，不用担心

hongyan30 · 2022 年9 月 14 日 23:09

你提到这些语料库并不大，虽然公认文学价值比较高。

有兴趣可以自制一个小众的词库，以金庸、琼瑶的用词打字

或者红楼梦西游记的用词。

这些前提是，使用者得熟练掌握这些文学作品的遣词造句的习惯

一个更好的方法是，建立一个语义转换引擎。

输入日常的说话习惯的语句，转换成红楼梦里面的语言习惯，这才是符合期望的作品。毕竟文学作品的价值在于鉴赏时候的美感。

您提到的专有领域输入词库，可能有三种潜在的专业用户

1 政府官员的公文专用输入法，这个鸿雁输入法已经喂了不少语料，目前能匹配七七八八。
2 法律界人士，尤其是法庭里面的速记员专用输入法。这个需要大量的法律语料库。
3 医生专用输入法，涉及各类医学名词

其他的有特殊需求而且数量比较庞大的，暂时还没想到。

etanalyst · 2022 年9 月 14 日 23:09

已经很好了
感谢您的艰苦工作

sansi · 2022 年9 月 15 日 02:00

粗略测试，个人感觉：5.0词库（仅仅指词库）单字频率较4.0更为合理，但还不是非常合理，如 qing首字是情，想必楼主是种/重感情（按照目前词库，种感情排在重感情之前）的人；罕用字排在后面了。其他方面，涛声依旧，基本如以前4.0版本，如同一拼音下候选词过多，词频/排序不太合理，一些常用词缺失等等和以前一样。整体上来说，词库可在日常生活中使用了，虽然常用词的词频不是很合理；词库目前有丰富短句加持，略呈语句输入的效果，词汇丰富。

种感情词频高于重感情，楼主一定可以给出技术说明，来说明为什么会这样。但能不能人工干预下？干预方法或许可以很简单，比如参考现代汉语词典词表，对词表的词汇给予额外更高的权重。次哭/词库词频也是同样的问题。

另外：
发现一个现象，或许是词库包含的词语太多、相互干扰引起的，说明如下：

输入yixue，首词为医学；输入 mingci，首词为名词。输入 yixuemingci，首词为一学名词

输入yige，首词为一个；输入chenshuideren，首词为沉睡的人；输入yigechenshuideren，首词为一个沉水的人。

yuju-语句，shuru-输入，但yujushuru-于据输入

词汇太多，尤其是废词太多，可能鸠占鹊巢，牝鸡司晨，尾大不掉。

（牝鸡司晨这个词竟然不在词库里。清关公司也不存在词库里。）

楼主，机器或程序的工作需要人工选择和干预的。机器认为次哭的词频高于词库，但是次哭词频高起来，只有负面作用；窃以为，应该考虑删除“次哭”这样的废词，还词库一片晴空；甚至，输入法的词频，不能直接套用语料库产生的词频。还请考虑！

hongyan30 · 2022 年9 月 15 日 02:45

Snipaste_2022-09-15_10-19-57
Snipaste_2022-09-15_10-20-20
Snipaste_2022-09-15_10-20-42
Snipaste_2022-09-15_10-21-35
Snipaste_2022-09-15_10-21-49
Snipaste_2022-09-15_10-22-24
Snipaste_2022-09-15_10-24-34
Snipaste_2022-09-15_10-25-36

更为完备的词库需要安装2471万增强包。
语句输入，清关公司在四个字的排名比较靠后，一个是1340万，一个是871万。所以没有入选。
一般编译1GB的词库需要22GB的内存。没有办法，如果加入这两个词语，词典文件需要增大2.5倍，我的电脑只有32GB的内存，目前硬件不允许。目前增强版词库索引解压后有1.6GB，这个大小已经超过部分操作系统的大小的。如果内存允许，词库索引增加到64GB，我也是愿意的。

剩下一个不当词语的问题，目前的条件还没法处理，主要是人工成本太高。要是黑马校对给我一个免费的授权，就像当年谷歌输入法购买这款软件用于词语校对，我还是乐意的。

2471万个词语，逐一校对需要的人力物力业余玩家承受不了。现代汉语词典也就5万多的词语，耗费了多少人力和财力。

追求完美，达到语义学上逻辑的完美，这可以理解。
这么完美的功能背后，是巨量的投入。废词只要影响不太严重，应该是可以忍受的。
可以估算一下，当年搜狗输入法为代表的智能拼音导致五笔用户数大量减少的现象，背后的投入只有王小川或者资深开发人员才知道。

人力校对的成本是很高的，作者愚钝，目前还没找到完美的中文分词算法，结巴分词的效果并不令人满意。

如果有一个高度可信的分词软件，次哭会识别为次/哭,这样的词语可以轻松剔除。

次哭只是一个简单的例子，这样的词语有几千万。

感谢您的评测，只能说，目前的选择，是没有办法中的办法。

sansi · 2022 年9 月 15 日 02:46

关于鸿雁（290万词库）更多的缺失词汇：和网上流传的一个《8万精准超小词库》对比，缺少了2900多条词汇，具体缺失的词汇请见：
鸿雁词库5.0（290万）相对于8万精准词汇缺少的词汇.txt (37,8 KB)

部分缺失词汇举例：

布什/身着/注册码/本论坛/上一页/文明用语/破解版/都江堰/功不可没/不在线/修订稿/绿色版/报价单/养路费/品牌机/发帖子/帮助文件/请稍候/留言本/用得着/修改器/国际域名/工具条/单机版/贵站/汉化版/虚拟光驱/超级兔子/页首/什叶派/启动项/迎奥运/同学录/精华区/双飞燕/安装盘/电视卡/拷贝到/试用版/抓图/备用金/都江堰市/互联星空/安装文件/精简版/之我见/老版本/档案袋/抽插/刻录盘/系统还原/占用率/后缀名/只见树木/月租费/奉化市/打补丁/监票人/花生壳/真郁闷/档案夹/本地连接/中文论坛/尾页/点击数/洋快餐/流水号/救火队/末页/远程协助/小穴/点钞机/接待日/电烤箱/折旧率/所得税率/玩具枪/传真号码/传呼机/页次/上虞市/正着/文具用品/受得了/圈外人/无核化/菜青虫/刮胡刀/维修部/电焊工/主办权/制衣厂/塑料厂/煤矸石/送货员/毕节地区/硬度计/汇款单/富阳市/防盗器

sansi · 2022 年9 月 15 日 03:13

不好意思，我评测的时候又是用的290万的那个鸿雁词库。您的2471万词库，是否有这yaml的格式的词库？能提供下载吗？请指点。

为处理次哭/词库这类词频问题，能不能这样？参考楼主选择认可的其他权威词库/词表（汉语常用词表，RIME官方词表），对于这些表中出现的词语（想必/假设次哭一词不出现），在鸿雁词库中将它们的词频人为调高，这样起码词库一词的词频高于次哭，次哭即使保留，也不会和比词库的词频高，不会争抢风头。实际上，在#43楼，我已经尝试这样做了。

另外，在290万词库中，出现：yuju-语句，shuru-输入，但yujushuru-于据输入这种情况。这如何理解？虽然您的2471万词库中，能够打出语句输入。

另，牝鸡司晨，是个常用的成语，290万大小的词库竟然没有包含？290万的词库起码要有一个机制，包含那些常用的词汇（常用成语、常用技术词汇、常用法律、医学词汇等）吧？楼主仅仅靠语料库出现频率来选择词语？选择的有效率、实用性如何？

在词语的选择，词频的确定方面，楼主一点都不考虑参考别的词库（RIME官方词库等）、语料库吗？只想从自己的语料库选取词语、从零做起？好奇！

etanalyst · 2022 年9 月 15 日 03:47

大神可以考虑弄几个分类的版本

比如医学版本
甚至纯粹的中医类版本内容包含中医典籍等等

比如古代文学艺术版本

分类有侧重，各有鲜明特点

大家按需下载
满足不同的学术需要

hongyan30 · 2022 年9 月 15 日 03:53

这是2471万鸿雁拼音原始码表

有需要可以自己调整

需要注意的是，这个码表需要在linux平台编译词库索引，windows平台无法编译
最好使用linux mint平台。
编译词库索引需要32GB的内存。

如果你制作了补丁，但是没有条件编译，可以发给我来制作。

文本编辑软件推荐 EmEditor最新版。

之前没有释放这个码表，是因为一般人都不具编译大型词库的条件。

另外你提到的鸿雁词库5.0（290万）相对于8万精准词汇缺少的词汇.txt

重新和 2471万的增强包对比，只有114个词语是缺失的

阿其所好/安于一隅/八斗之才/八方呼应/百端待举/百卉千葩/宝山空回/本小利大/避世绝俗/补缺拾遗/不甘后人/布衣黔首/藏器待时/朝过夕改/嗔拳不打笑面/沉冤莫白/秤平斗满/闯开/吹糠见米/春梦无痕/椿萱并茂/粗选/打一巴掌揉三揉/等外品/涤瑕荡秽/堆金积玉/耳闻不如目见/反踢/非君莫属/负心违愿/负薪救火/富国安民/富康车/改恶向善/干云蔽日/告贷无门/供产销/故旧不弃/广结良缘/贵古贱今/毫发不爽/候选词/猢狲入布袋/虎口逃生/花明柳暗/回黄转绿/假按揭/箭不虚发/金瓯无缺/泾渭不分/精品版/井蛙之见/可定制性/累牍连篇/立刀旁/镂月裁云/渺无音信/妙语解颐/磨杵成针/女垒/派购/破瓦寒窑/千钧重负/秋风过耳/裙带风/日月重光/如日方升/如蝇逐臭/删词/上下交困/社鼠城狐/神投手/盛名之累/瘦瘦长长/数黑论黄/耍态度/水落归槽/说短论长/丝恩发怨/泰山鸿毛/谈吐之间/掏牌/提手旁/贴图区/土洋并举/顽匪/王码/纤悉无遗/项背相望/性能超群/虚左以待/雪窖冰天/牙白口清/言无二价/言字旁/沿门托钵/野鹤闲云/野宴/页次/以产定销/以丰补歉/以售其奸/用非所长/游云惊龙/有意栽花花不发/有嘴无心/牖中窥日/幼禽/渔钩/找窍门/直心眼/只重衣衫不重人/追风逐电/字根表/

这些词语确实是不常用的词语，可见2471万作为临界分割点是比较合适的。

etanalyst · 2022 年9 月 15 日 03:57

分类词库按需下载

也可以减少电脑内存占用

大而全固然好

小而美也不错

请大神斟酌

hongyan30 · 2022 年9 月 15 日 04:07

内存现在是比较廉价的
rime的算法服务后台占用内存非常小，只是数据库文件很大而已。

这和SQLite数据差不多，几个GB的数据库，查询的时候不需要加载整个文件到内存。

rime输入法，目前已知五笔和拼音是不可以同时启用的，只能启用一个，可能加载的引擎不一样。
官方的示例可以使用多个输入法方案，这种设置并没有搜狗细胞词库那么方便。

如果要达到你需要的功能，需要在rime输入法里面加入一个细胞词库功能。目前rime输入法在这方面还比较欠缺。

强大的功能背后是需要很多的人力物力投入的。

搜狗百度输入法有大量的开发人员，
而开源输入法就缺乏这样的条件。

rime输入法开源了十年，花了多少时间做得比较完善的，这个只有开发者清楚。
软件开发和普通的工作不一样，复杂度有的时候是超出预料的。

etanalyst · 2022 年9 月 15 日 04:12

其实已经很满意了

就是看大神啥时候有空

搞一个医学版

先拜谢了

sansi · 2022 年9 月 15 日 04:35

下载 yan_pinyin_simp.dict.part2.rar - 蓝奏云时，出现错误：

Part1可以下载。解压需要密码吗？
谢！

ad困困 · 2022 年9 月 15 日 04:50

2分享取消了靠呵呵

hongyan30 · 2022 年9 月 15 日 05:05

蓝奏盘上传压缩分卷需要绕过官方限制，耐心等等

hongyan30 · 2022 年9 月 15 日 05:10

蓝奏盘链接已经更新，可以正常下载

hua · 2022 年9 月 15 日 05:29

可以使用本站云盘。