鸿雁输入法——整句输入法中一颗冉冉升起的新星

请问一下这软件是开源的吗?我主要想确认一下有没有上传用户输入信息什么的。

rime系列输入法都不会上传用户的隐私

殆知阁 和四库全书是目前第一大和第二大的古文语料库。

你提到用古文的数据库增添输入法词库的文学色彩,这样的美梦我也曾经做过。3.0版本之前就包含殆知阁的文本数据,包括道藏 易藏 医藏 佛藏 子藏 史藏等等。

采用古文数据库后,生僻词大量增加。这些是现代文中几乎用不到的。

古文数据库,不少文章没有标点,原来分析词语的长度是2~4个字的词语,现在词语长度升级到2~16个字的词语,古文数据库中没有标点的文章分析,会增加长度相对较长的废词的数量,分析复杂度和时间也会增加。

EPUBEE全站电子书,百度百科里有不少目前仍然比较流行的古文数据。

另外,文章没有提到的高权词库,包括
唐诗三百首、宋词三百首、老子道德经、论语、诗经的整句
李白诗句全集

这些输入法里都有。李白的诗句可以随便测试一下。

本来我想收录全唐诗的,一分析发现,这个数据库太大,因为Windows轻量版最多只能使用约260多万的词汇,一个全唐诗就50万+的数据,其他的词汇如何保证足够的数量。

经典的古文作品其实只是少数,大部分古文的质量并不高。

希望是美好的,现实却不一定和希望的那样美好。

软件是在开源软件的基础上制作的,改动的源代码已经公开。也就是说你可以审查源代码,不用担心

1 个赞

你提到这些语料库并不大,虽然公认文学价值比较高。

有兴趣可以自制一个小众的词库,以金庸、琼瑶的用词打字

或者红楼梦西游记的用词。

这些前提是,使用者得熟练掌握这些文学作品的遣词造句的习惯

一个更好的方法是,建立一个语义转换引擎。

输入日常的说话习惯的语句,转换成红楼梦里面的语言习惯,这才是符合期望的作品。毕竟文学作品的价值在于鉴赏时候的美感。

您提到的专有领域输入词库,可能有三种潜在的专业用户

1 政府官员的公文专用输入法,这个鸿雁输入法已经喂了不少语料,目前能匹配七七八八。
2 法律界人士,尤其是法庭里面的速记员专用输入法。这个需要大量的法律语料库。
3 医生专用输入法,涉及各类医学名词

其他的有特殊需求而且数量比较庞大的,暂时还没想到。

已经很好了
感谢您的艰苦工作

粗略测试,个人感觉:5.0词库(仅仅指词库)单字频率较4.0更为合理,但还不是非常合理,如 qing首字是 情,想必楼主是种/重感情(按照目前词库,种感情 排在 重感情 之前)的人;罕用字排在后面了。其他方面,涛声依旧,基本如以前4.0版本,如同一拼音下候选词过多,词频/排序不太合理,一些常用词缺失等等和以前一样。整体上来说,词库可在日常生活中使用了,虽然常用词的词频不是很合理;词库目前有丰富短句加持,略呈语句输入的效果,词汇丰富。

image
种感情 词频 高于 重感情,楼主一定可以给出技术说明,来说明为什么会这样。但能不能人工干预下?干预方法或许可以很简单,比如参考现代汉语词典词表,对词表的词汇给予额外更高的权重。次哭/词库词频也是同样的问题。

另外:
发现一个现象,或许是词库包含的词语太多、相互干扰引起的,说明如下:

输入yixue,首词为 医学;输入 mingci,首词为 名词。输入 yixuemingci,首词为 一学名词
image

输入yige,首词为 一个;输入chenshuideren,首词为 沉睡的人;输入yigechenshuideren,首词为 一个沉水的人。

image

yuju-语句,shuru-输入,但yujushuru-于据输入
image

词汇太多,尤其是废词太多,可能鸠占鹊巢,牝鸡司晨,尾大不掉。

(牝鸡司晨这个词竟然不在词库里。清关公司 也不存在词库里。)
image
image

楼主,机器或程序的工作需要人工选择和干预的。机器认为 次哭 的词频高于 词库,但是次哭词频高起来,只有负面作用;窃以为,应该考虑删除“次哭”这样的废词,还词库一片晴空;甚至,输入法的词频,不能直接套用语料库产生的词频。还请考虑!

1 个赞

Snipaste_2022-09-15_10-19-57
Snipaste_2022-09-15_10-20-20
Snipaste_2022-09-15_10-20-42
Snipaste_2022-09-15_10-21-35
Snipaste_2022-09-15_10-21-49
Snipaste_2022-09-15_10-22-24
Snipaste_2022-09-15_10-24-34
Snipaste_2022-09-15_10-25-36

更为完备的词库需要安装2471万增强包。
语句输入,清关公司 在四个字的排名比较靠后,一个是1340万,一个是871万。所以没有入选。
一般编译1GB的词库需要22GB的内存。没有办法,如果加入这两个词语,词典文件需要增大2.5倍,我的电脑只有32GB的内存,目前硬件不允许。目前增强版词库索引解压后有1.6GB,这个大小已经超过部分操作系统的大小的。如果内存允许,词库索引增加到64GB,我也是愿意的。

剩下一个不当词语的问题,目前的条件还没法处理,主要是人工成本太高。要是黑马校对给我一个免费的授权,就像当年谷歌输入法购买这款 软件用于词语校对,我还是乐意的。

2471万个词语,逐一校对需要的人力物力业余玩家承受不了。现代汉语词典也就5万多的词语,耗费了多少人力和财力。

追求完美,达到语义学上逻辑的完美,这可以理解。
这么完美的功能背后,是巨量的投入。废词只要影响不太严重,应该是可以忍受的。
可以估算一下,当年搜狗输入法为代表的智能拼音导致五笔用户数大量减少的现象,背后的投入只有王小川或者资深开发人员才知道。

人力校对的成本是很高的,作者愚钝,目前还没找到完美的中文分词算法,结巴分词的效果并不令人满意。

如果有一个高度可信的分词软件,次哭 会识别为 次/哭,这样的词语可以轻松剔除。

次哭只是一个简单的例子,这样的词语有几千万。

感谢您的评测,只能说,目前的选择,是没有办法中的办法。

关于鸿雁(290万词库)更多的缺失词汇:和网上流传的一个《8万精准超小词库》对比,缺少了2900多条词汇,具体缺失的词汇请见:
鸿雁词库5.0(290万)相对于8万精准词汇缺少的词汇.txt (37,8 KB)

部分缺失词汇举例:

布什/身着/注册码/本论坛/上一页/文明用语/破解版/都江堰/功不可没/不在线/修订稿/绿色版/报价单/养路费/品牌机/发帖子/帮助文件/请稍候/留言本/用得着/修改器/国际域名/工具条/单机版/贵站/汉化版/虚拟光驱/超级兔子/页首/什叶派/启动项/迎奥运/同学录/精华区/双飞燕/安装盘/电视卡/拷贝到/试用版/抓图/备用金/都江堰市/互联星空/安装文件/精简版/之我见/老版本/档案袋/抽插/刻录盘/系统还原/占用率/后缀名/只见树木/月租费/奉化市/打补丁/监票人/花生壳/真郁闷/档案夹/本地连接/中文论坛/尾页/点击数/洋快餐/流水号/救火队/末页/远程协助/小穴/点钞机/接待日/电烤箱/折旧率/所得税率/玩具枪/传真号码/传呼机/页次/上虞市/正着/文具用品/受得了/圈外人/无核化/菜青虫/刮胡刀/维修部/电焊工/主办权/制衣厂/塑料厂/煤矸石/送货员/毕节地区/硬度计/汇款单/富阳市/防盗器

不好意思,我评测的时候又是用的290万的那个鸿雁词库。您的2471万词库,是否有这yaml的格式的词库?能提供下载吗?请指点。

为处理 次哭/词库 这类词频问题,能不能这样?参考楼主选择认可的其他权威词库/词表(汉语常用词表,RIME官方词表),对于这些表中出现的词语(想必/假设 次哭 一词不出现),在鸿雁词库中将它们的词频人为调高,这样起码 词库 一词的词频高于 次哭,次哭 即使保留,也不会和比 词库 的词频高,不会争抢风头。实际上,在#43楼,我已经尝试这样做了。

另外,在290万词库中,出现:yuju-语句,shuru-输入,但yujushuru-于据输入 这种情况。这如何理解?虽然您的2471万词库中,能够打出 语句输入。

另,牝鸡司晨,是个常用的成语,290万大小的词库竟然没有包含?290万的词库起码要有一个机制,包含那些常用的词汇(常用成语、常用技术词汇、常用法律、医学词汇等)吧?楼主仅仅靠语料库出现频率来选择词语?选择的有效率、实用性如何?

在词语的选择,词频的确定方面,楼主一点都不考虑参考别的词库(RIME官方词库等)、语料库吗?只想从自己的语料库选取词语、从零做起?好奇!

2 个赞

大神可以考虑弄几个分类的版本

比如医学版本
甚至纯粹的中医类版本 内容包含中医典籍等等

比如古代文学艺术版本

分类有侧重,各有鲜明特点

大家按需下载
满足不同的学术需要

这是2471万鸿雁拼音原始码表

有需要可以自己调整

需要注意的是,这个码表需要在linux平台编译词库索引,windows平台无法编译
最好使用linux mint平台。
编译词库索引需要32GB的内存。

如果你制作了补丁,但是没有条件编译,可以发给我来制作。

文本编辑软件推荐 EmEditor最新版。

之前没有释放这个码表,是因为一般人都不具编译大型词库的条件。

另外你提到的 鸿雁词库5.0(290万)相对于8万精准词汇缺少的词汇.txt

重新和 2471万的增强包对比,只有114个词语是缺失的

阿其所好/安于一隅/八斗之才/八方呼应/百端待举/百卉千葩/宝山空回/本小利大/避世绝俗/补缺拾遗/不甘后人/布衣黔首/藏器待时/朝过夕改/嗔拳不打笑面/沉冤莫白/秤平斗满/闯开/吹糠见米/春梦无痕/椿萱并茂/粗选/打一巴掌揉三揉/等外品/涤瑕荡秽/堆金积玉/耳闻不如目见/反踢/非君莫属/负心违愿/负薪救火/富国安民/富康车/改恶向善/干云蔽日/告贷无门/供产销/故旧不弃/广结良缘/贵古贱今/毫发不爽/候选词/猢狲入布袋/虎口逃生/花明柳暗/回黄转绿/假按揭/箭不虚发/金瓯无缺/泾渭不分/精品版/井蛙之见/可定制性/累牍连篇/立刀旁/镂月裁云/渺无音信/妙语解颐/磨杵成针/女垒/派购/破瓦寒窑/千钧重负/秋风过耳/裙带风/日月重光/如日方升/如蝇逐臭/删词/上下交困/社鼠城狐/神投手/盛名之累/瘦瘦长长/数黑论黄/耍态度/水落归槽/说短论长/丝恩发怨/泰山鸿毛/谈吐之间/掏牌/提手旁/贴图区/土洋并举/顽匪/王码/纤悉无遗/项背相望/性能超群/虚左以待/雪窖冰天/牙白口清/言无二价/言字旁/沿门托钵/野鹤闲云/野宴/页次/以产定销/以丰补歉/以售其奸/用非所长/游云惊龙/有意栽花花不发/有嘴无心/牖中窥日/幼禽/渔钩/找窍门/直心眼/只重衣衫不重人/追风逐电/字根表/

这些词语确实是不常用的词语,可见2471万作为临界分割 点是比较合适的。

分类词库按需下载

也可以减少电脑内存占用

大而全固然好

小而美也不错

请大神斟酌

内存现在是比较廉价的
rime的算法服务后台占用内存非常小,只是数据库文件很大而已。

这和SQLite数据差不多,几个GB的数据库,查询的时候不需要加载整个文件到内存。

rime输入法,目前已知五笔和拼音是不可以同时启用的,只能启用一个,可能加载的引擎不一样。
官方的示例可以使用多个输入法方案,这种设置并没有搜狗细胞词库那么方便。

如果要达到你需要的功能,需要在rime输入法里面加入一个细胞词库功能。目前rime输入法在这方面还比较欠缺。

强大的功能背后是需要很多的人力物力投入的。

搜狗百度输入法有大量的开发人员,
而开源输入法就缺乏这样的条件。

rime输入法开源了十年,花了多少时间做得比较完善的,这个只有开发者清楚。
软件开发和普通的工作不一样,复杂度有的时候是超出预料的。

1 个赞

其实已经很满意了

就是看大神啥时候有空

搞一个医学版

先拜谢了

下载 yan_pinyin_simp.dict.part2.rar - 蓝奏云 时,出现错误:
image

Part1可以下载。解压需要密码吗?
谢!

2分享取消了靠呵呵

蓝奏盘上传压缩分卷需要绕过官方限制,耐心等等

蓝奏盘链接已经更新,可以正常下载

可以使用本站云盘。