鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典型语料库的统计词频)

鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典型语料库的统计词频)

开发缘由:

  • 我想拥有一个自己的拼音输入法,开源的,可以高度定制,没有强制弹窗、没有强制升级。
  • 我想拥有一个自己的拼音输入法,拥有超高的词语输入准确率,摆脱对过度商业化输入法的依赖。
  • 我想拥有一个自己的拼音输入法,可以众人参与改进,吸收最新的语言学成果。
  • 我想拥有一个自己的拼音输入法,如同知名媒体人王晓峰的博文《一个输入法的死掉》描述的黑马神拼那样,可以在输入法中对古诗词信手拈来。
  • Rime输入法有一个超大词库,【SuperRime拓展词库】 for 朙月拼音&Win10拼音(700万词),质量并不高,绝大部分都是未完全分词的错误词汇。朙月拼音码表中存在不少拼音错误。目前Rime输入法缺乏一个接近工业级质量的拼音库码表,如果词库必须要自己去养,现代汉语词典就有大约6万个词语,不吸收利用现有的语言频率成果,养词汇要等到猴年马月。
  • 刘邵博综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。该词典未对词语进行有效筛选,虽然来源样本较大,是270G新闻语料,但是不具备典型代表性,不能囊括其他语料库的词语。同时这个词典没有拼音标注。

开发理念:

不以盈利为目的,本着开源共享的精神,使用网络上可以公开获得的数据,打造一个高准确率的拼音输入法,免除弹窗、捆绑安装、强制升级的烦恼。

商业化的输入法有经济利润的驱动,投入大量的人力,拥有较高的词库质量。当商业化倾向过于严重时,会影响用户体验。闭源的数据和代码,让一般民众无法参与到产品核心功能的改进,无法吸纳群体的智慧。

开源的和免费的输入法属于兴趣驱动,人力投入匮乏,良莠不齐,缺乏高质量的词库和功能体验。

大学研究人员对于汉语词频、拼音、分词的学术性研究,拥有科研基金的支持,有高水平人才的参与,学术成果拥有较高的质量,但研究者没有将学术成果转化为实用性较强的拼音输入法倾向。

鱼与熊掌不可兼得,综合吸纳了商业化、开源化、学术化的产品三方优点,鸿雁拼音输入法诞生了,同时拥有windows版和安卓版。

语言属于公共领域的财产,广大人民群众贡献了整个语言体系的的走向趋势。人民群众的语言是开源非加密的,商业拼音输入法在获取成千上万人的开源的语言后,分析其中的规律,推出更符合语言规律的拼音输入法,形式却是闭源的、加密的,而且是私人领域的财产。这在法律和道德上是不对等的。成熟的商业拼音输入法应当适当程度公开其获得的语言规律,也采用开源的形式。这叫取之于民,还之于民。算法可以理解为商业机密,词条数据认为完全属于私人财产是不合适的。算法的创造者是软件公司,而词条的贡献者并不是软件公司,而是来自成千上万的人民群众贡献的语料库,这属于公共领域的财产衍生品,同样属于公共领域的财产。词条数据的归属权大部分属于共用领域,少部分属于私人领域。

一些包含弹窗、捆绑安装、强制升级的商业化输入法,以前因为其强大的拼音词库你不得不用,从此可以对它们说再见了。

软件截图:

使用注意事项:

中文词语上屏,使用标点符号、回车键、或者空格按两次。单个空格可以用于整句输入的分词。

输入字母的半途,使用英文上屏,按下shift键。

初次安装输入法会生成词库索引,可能会占用较高的资源。尤其是鸿雁拼音手机输入法,需要等待1-4分钟,LevelDB数据库需要处理337万的数据。这个时候软件会出现无响应的状态,请耐心等待。

可以使用拼音的简拼输入词语,如键入“tswcbyy”,候选词列表第一个是“天生我材必有用”。没有模糊音选项,一个汉字要么输入声母或者首字母,要么输入全拼。

请使用规范汉语拼音。比如“嗯”字,新华词典这个字的拼音有“ń ńg ň ňg ǹ ǹg”,目前市面上的输入法可以使用“en”打出“嗯”字。这里不破坏拼音标准,拼音输出单字“嗯”,请输入“ng”或者“vn”。至于为什么不用“n”而用“vn”,下面作出解释。

在拼音输入词语的时候,可以用每个字的拼音第一个字母组合起来作为简拼输入。在汉字中有一些汉字的拼音只有一个字符,比如“垩 è”、“阿 à ā ē”、“㕶 ň ňg”、“呣 m̀ ḿ”,单个的拼音转化为英文字母,“a o e”这些字母作为简拼输入不会出现词语竞争,“n m”这两个字母单独输入,每一次输入时都会出现单独的“㕶 呣”这些单音字列表,干扰使用体验,故把完整拼音是“n”或者“m”的汉字输入拼音分别改为“vn”、“vm”。这里采用类似转移字符的方式绕过这个小狼毫输入法缺陷。

本输入法未对词语的马尔可夫链概率链进行统计,就是前后两个词语的相关概率并未统计。鉴于需求的轻重缓急,本方案比较简单粗暴,只追求单个汉字和单个词语极致的拼音库质量和数量。

因为词库数据量较大,安卓平台的版本按照同文输入法的默认步骤安装会无法安装成功,会出现无响应、进入不了输入法界面的状态。需要按照“鸿雁拼音手机输入法安装步骤.pdf”文档,按照特定的步骤才能成功安装。

鸿雁拼音输入法windows版只能在Windows 7及以上平台使用,不支持windows xp平台。软件在windows 7 32bit、windows 7 64bit、windows 10 64bit上测试通过。

鸿雁拼音输入法安卓版在一加手机上Android 10测试通过。

输入法采用的技术框架:

小狼毫输入法 https://github.com/rime/weasel

同文Android 输入法 https://github.com/osfans/trime

使用协议:

约定GNU通用公共许可证为本输入法的使用协议,协议链接(https://www.gnu.org/licenses/gpl-3.0.html)。

不限于任何商业、个人使用。如果引用本输入法的数据,务必标注数据来源并且对修改的部分开源。

鸿雁拼音输入法采用小狼毫输入法源代码修改编译,其中具体业务代码并未改动,做了如下修改:软件界面繁体转为简体,更改软件名称为鸿雁拼音,去除rime官方网站链接,去除其他输入方案,集成鸿雁拼音方案,更改软件图标为源代码中另一套更好看的图标方案。

鸿雁拼音手机输入法采用同文Android 输入法框架,具体业务代码并未改动,做了如下修改:修正默认数字键盘的输入错误,中文输入键盘上字母调整为大写,调整输入框提示符为空,去除软件中的QQ群、讨论论坛、捐助相关的文字和链接。

数据来源:

高权参考词库

现代汉语词典第7版
百度百科与维基百科的词条标题的交集(约50万条)
唐诗三百首、宋词三百首、老子道德经、论语、诗经的整句
李白诗句全集
世界各个国家国名全称、简称
中华人民共和国行政区划省级、地级、县级  

以上词库中的词语,除了生僻字,大部分得以保留。

简繁转换

Open Chinese Convert   [https://github.com/BYVoid/OpenCC](https://github.com/BYVoid/OpenCC)  

词频、字频、新词数据来源语料库

百度百科约560万个词条(14.5GB,约59亿字)
维基百科约400万个词条(10.1GB,约40亿字)
微博语料(7.4GB,约30亿字)
微信公众号语料(2.9GB,约12亿字)
新闻语料(12.6GB,约51亿字)
1946年-2003年人民日报全部数据纯文本(3.1GB,约11.6亿字)
联合国平行语料库中文部分(1.4GB,约5.5亿字)
殆知阁古代文献txt大全集(4.8GB,约17亿字)  



语料库分析的时候分割成600MB大小的区块,共计114个区块。如果一个词语在三个及以上不同的区块出现,这个词语就成功入选。在两个字的词语、三个字的词语、四个字的词语中,选择排名靠前的词语180万条,再合并高权参考词库后,共计230万词条。  

词语分析并未采用结巴分词这样的分词软件,直接采用简单粗暴的机械分词,假如两个汉字紧挨着,把这两个汉字视为两个字的词语。三个字、四个字的词语判断以此类推。“你吃饭了吗”,这段话被拆分成“你吃”、“吃饭”、“饭了”、“了吗”、“你吃饭”、“吃饭了”、“饭了吗”、“你吃饭了”、“吃饭了吗”,并进行统计。这种机械分词方式保证统计所有出现的词语排列组合。  

结巴分词的c++版本分析速度最快,单线程约为11MB/s。其他的分词软件的速度一般低于11MB/s,大部分在1MB/s左右。简单粗暴的机械分词速度远远高于这个速度。使用golang实现的机械分词软件,对645MB的文本统计两个字的词语出现次数,并对出现的130万个中文词语频率由高到低排序,耗时仅为37.9s。分词、统计、排序三个任务加在一起,速度仍然高达17MB/s。机械分词对于大型的语料分析非常有利。本软件使用语料库约为58GB大小,分词统计排序共耗时4.3小时。如果按照一般中文分词软件的速度1MB/s,仅仅分词就需要16.5小时,时间成本大大增加。现有的分词软件分词功能并不完备,最为流行的结巴分词,也会出现错误的分词。语言千变万化,就算当今人工智能发展到比较发达的程度,还是无法处理语言精确分析的所有问题,因为语言存在不少隐含的变量,与现实世界的事实存在对应,这些是语料库的本身的信息无法提供的,需要人工核实。机械分词虽然存在冗余的组合词汇和不当位置的切割获得的词汇,这些缺点并不影响输入法输入过程中的体验,甚至会更好的辅助输入。机械分词生成的概率统计模型更接近真实的词语分布。只要语料样本足够大、足够全,那么日常工作生活中,朋友聊天、商业交流,普通工作中的文字录入、学术人员和传媒人员写作等等所需的词语可以全面覆盖。如果一个人活120岁,每天认识一个新词,一生认识的新词有4.38万个。230万的词语已经足够覆盖日常生活所需的词语。  

对单个汉字、单个词语的频率使用220亿字的语料库得出精确的词频数据,用于鸿雁拼音输入法的输入过程中的候选列表排序。高权参考词库的词语保证了标准词语的全面性,基于典型的大规模语料库分析得到的新词保证了常见中文输入过程中的几乎所有可能组合。就词库的质量和数量而言,本方案拥有超高的准确率。在两个字到四个字的词语中,存在没有完全分词的词语。这是可以接受的。比如“了吗”这个词语是由两个独立的标准词语组合而成,虽然在词典书上不算一个词条,在我们日常聊天语句这个词语却比较常见。五笔输入法是以拆字作为输入单元。鸿雁拼音输入法包含几乎我们日常生活中的所有词语组合,那么鸿雁拼音输入法进入拆词输入的时代。如果你打字的时候没有出现这个词,请你不要奇怪,要么就是你用的词语不属于词典上的标准词语,要么这个词语是你自造的词语别人几乎不用,要么这个词语是一个罕见的词语。输入法默认禁用用户词典,如果用户有开启用户词典的需求,可以查看Rime输入法文档修改配置。词库已经足够全面,一般情况下不需要补充新词。用户输入的词库会打乱原有的候选词语排序,干扰盲打的进程。每次输入同样的按键候选词语都是一致的,可以轻松实现盲打。只要记住候选词语的顺序,闭着眼睛都能打字。智能ABC曾经是中国大陆使用人数最多的输入法软件,原因就是相对宽松的拼音输入方式,并有词语拼音的首字母简化输入,拼音输入更符合一般人的思考习惯。鸿雁拼音输入法,立志成为新时代的智能ABC。  

拼音数据来源

Unicode 14的字符,使用最新版perl正则引擎“\\p{han}”作为识别汉字字符的标准,去除没有拼音的部分,剩下的字符入选到输入法可输入汉字列表中。无论是微博语料库,还是百度百科语料库、人民日报语料库,常用的汉字大约5000个,而汉典收录了93898个汉字,异体字字典收录106330个字,绝大部分汉字躺在书中睡觉,一般我们很少接触到它们。  



找到一个大而全并且准确、可用的拼音库,存在不少的难度。公开的拼音数据库大部分存在不少错误,权威的拼音数据库,比如现代汉语词典、汉语大字典没有可靠的官方文本数据。办法总是有的,可以在多个拼音库的基础上,按照权威性、准确性采用分级投票的方式获得可靠性高、准确率高、涵盖汉字数量多的拼音库。  

以新华字典、通用规范汉字字典、异体字字典为准,作为第一阶梯数据。使用汉典网、百度汉语、字统网的数据作为补充,作为第二阶梯数据。unicode 13标准中的汉字拼音、字海(叶典)网的拼音数据存在不少错误,辞源、古汉语常用字字典第5版、汉语大词典、汉语大字典、现代汉语词典第7版的拼音数据因为数据来源是通过OCR获得的,也存在不少错误。这些数据仅用于第三梯队,不直接采纳数据,仅仅对第一、第二阶梯的拼音数据投票。  

按照前述的拼音数据合并方案输出的汉字-拼音数据库,涵盖汉字共计41442个,拼音的权威性、准确性、多音字的数据完整性得到较大改善。  

下载链接:

https://hong-yan.lanzouw.com/b00vvkivc
密码:1234

14 个赞

鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

自从发布鸿雁拼音后,得到不少网友的热心反馈。在群体智慧的帮助下,得到不少有益的改进。

在一个出版业的专业论坛,有几个网友给出回复:

  • 有五笔版吗?只会这个………………
  • 重码太多,打字快吗?
  • 习惯了五笔。现在用的是百度输入法。。。能五笔拼音混合输入吗

著名的博主善用佳软推崇极点五笔,CPC中文印刷社区站长也提到用了十年的极点五笔,知乎上不少网友都说极点五笔是他使用时间最长的输入法。
现在的情况是极点五笔已经停止更新,对win 10兼容性不好。
CPC中文印刷社区站长自己打造了一个黄狗五笔,其他的网友有的使用精灵五笔,有的使用冰凌五笔作为继任者。

对单个汉字、单个词语的频率使用220亿字的语料库得出精确的词频数据,用于鸿雁拼音输入法的输入过程中的候选列表排序。
这个词库数据如果移植到五笔平台,会不会有更多受众呢?

我发现百度贴吧中对拼音输入法的关注比较低,而与五笔相关的吧,感兴趣的人比较多。我到医院就医,看到挂号处的医生使用的是五笔输入法。
在前面提到的出版业的专业论坛上,网友给出的几个回复比较犀利,指出拼音输入法重码多的缺点。
虽然230万的词库足以覆盖日常工作生活的绝大部分词语组合,拼音重码多的缺点还是无法从根本上解决录入速度的问题。

看来,在专业的文字录入领域,还是五笔一家独大。对文字录入有高速化职业化需求的从业者中,五笔可能是唯一的选择。

既然有需求,经过2天时间的紧张制作,鸿雁五笔诞生了。

之前有制作鸿雁拼音码表的相关脚本,输入法框架、词频数据都是现成的,只需要改为五笔码表即可。

移植工作非常顺利,用perl语言处理文本,感觉so easy。拼音存在多音字,而汉字->五笔编码对是唯一的,处理难度简单一些。

根据(98五笔资源库/五笔小筑)的说法,“86、98、新世纪、这三版五笔中,98版是拆字最为和谐自洽,字根数量最多,击键协调性最好,对大字符集适应最好的一版。”
并提到“98版五笔早已无专利问题”,原因是王码公司没有缴纳专利费用,2004年专利权视为放弃,百度五笔相关法务团队曾经做过详尽的专利调查。

万一哪天王码表公司补缴专利费,又重新获得98版五笔专利权呢?目前市面上另一个现实是,windows自带五笔输入法,让86版的五笔使用者最为广泛。

86版的五笔早已没有版权问题,感谢联想集团,给网友带来免费的午餐。

鸿雁五笔采用的是86版的王码五笔方案。
最新版的王码五笔,支持输入27533个汉字。
鸿雁五笔输入法可以输入的汉字有41442个。增补的码表主要来源于CPC中文印刷社区站长在制作黄狗输入法时对生僻字的整理工作,黄狗输入法支持的汉字有10万多。

为什么不全部支持?这里讲一下原因。

制作鸿雁拼音时词频来自以下语料库:

  • 百度百科约560万个词条(14.5GB,约59亿字)
  • 维基百科约400万个词条(10.1GB,约40亿字)
  • 微博语料(7.4GB,约30亿字)
  • 微信公众号语料(2.9GB,约12亿字)
  • 新闻语料(12.6GB,约51亿字)
  • 1946年-2003年人民日报全部数据纯文本(3.1GB,约11.6亿字)
  • 联合国平行语料库中文部分(1.4GB,约5.5亿字)
  • 殆知阁古代文献txt大全集(4.8GB,约17亿字)

在220亿字的典型语料库中,使用的汉字仅有3.8万个。出现次数3次及以上的汉字只有2.5万个。

鸿雁五笔输入法支持的的41442个汉字,是含有拼音数据的。一个拼音都找不到的汉字被使用的概率是多少?应该非常低,没有读音意味着这个字几乎没有人用。
4.1万的汉字已经足够覆盖日常工作生活中所需所有汉字。

我不是五笔输入法使用者,请专业人士品鉴一下码表是否合适。

单个字的码表:
〇 llll
㐀 gjgg
㐁 glwi
㐂 aaab
㐄 ahk
㐅 qty
饤 qnsh
饥 qnmn
饦 qnta
饧 qnnr
饨 qngn
饩 qnrn
饪 qntf
饫 qntd
饬 qntl
饭 qnrc
饮 qnqw

2个字到4个字的词语码表:

特仑 trff wxb
特仑苏 trff wxb alwu
特他 trff wbn
特代 trff way
特令 trff wycu
特以 trff nywy
特以及 trff nywy eyi
特们 trff wun
特价 trff wwjh
特价只 trff wwjh kwu
特价只要 trff wwjh kwu svf
特价房 trff wwjh ynye
特价机 trff wwjh smn
特价机票 trff wwjh smn sfiu
特价秒杀 trff wwjh titt qsu
特价车 trff wwjh lgnh
特任 trff wtfg
特企 trff whf
特伊 trff wvtt
特伍 trff wgg
特伍德 trff wgg tfln
特伐 trff way
特优 trff wdnn
特优势 trff wdnn rvyl
特会 trff wfcu
特伟 trff wfnh
特传 trff wfny
特伦 trff wwxn
特伦扎诺 trff wwxn rnn yadk
今天一个 w g g w
今天一大 w g g d
今天一天 w g g g
今天一定 w g g p
今天一早 w g g j
今天上午 w g h t
今天上班 w g h g
今天下之 w g g p
今天下午 w g g t
今天不回家 w g g l p
今天不是 w g g j
今天不苦 w g g a
今天不起 w g g f
今天中午 w g k t
今天一个 wynb gdi ggll whj
今天一大 wynb gdi ggll dddd
今天一天 wynb gdi ggll gdi
今天一定 wynb gdi ggll pghu
今天一早 wynb gdi ggll jhnh
今天三 wynb gdi dggg
今天上 wynb gdi hhgg
今天上午 wynb gdi hhgg tfj
今天上班 wynb gdi hhgg gytg
今天下 wynb gdi ghi
今天下之 wynb gdi ghi pppp
今天下午 wynb gdi ghi tfj
今天不 wynb gdi gii

四个字以上的词语码表:

国际奥林匹克委员会 l b t s a d t k w
国际奥林匹克委员会主席 l b t s a d t k w y y
国际奥林匹克委员会全体会议 l b t s a d t k w w w w y
国际奥林匹克委员会委员 l b t s a d t k w t k
国际奥林匹克数学竞赛 l b t s a d o i u p

最大支持16个字的词语码表:

一致性高速缓存非均匀存储访问模型 g g n y g x d h f q d w y u s g
三区革命政府政治文化活动中心旧址 d a a w g y g i y w i f k n h f
三方协商促进实施国际劳工标准公约 d y f u w f p y l b a a s u w x
三角齿马先蒿三角齿亚种三角齿变种 d q h c t a d q h g t d q h y t
上海佳豪船舶工程设计股份有限公司 h i w y t t a t y y e w d b w n
上海图书馆上海科学技术情报研究所 h i l n q h i t i r s n r d p r
上海市实有人口服务和管理若干规定 h i y p d w k e t t t g a f f p
上海神开石油化工装备股份有限公司 h i p g d i w a u t e w d b w n
上海耀华皮尔金顿玻璃股份有限公司 h i i w h q q g g g e w d b w n
上海锦江国际酒店发展股份有限公司 h i q i l b i y n n e w d b w n
世界自然保护联盟濒危物种红色名录 a l t q w r b j i q t t x q q v
东北抗日暨爱国自卫战争烈士纪念塔 a u r j v e l t b h q g f x w f
中华人民共和国中央人民政府委员会 k w w n a t l k m w n g y t k w

词语码表规则如下:
2-3个字词语只能使用单字的全部码表输入,不能使用简写。
4个字的词语可以使用单字的全部码表输入,也可以使用码表首字母组合输入。
5-16个字的词语只可以使用码表首字母组合输入。

这样的选择是因为,五笔编码单字使用3-4个字母,如果2-3个字使用五笔编码的的一个字母或者前两个字母作为简略输入,会出现大量重复的码表。
4个字及其以上的词语对应的拉丁字母组合重码率已经很低,可以使用简略输入。

4个字的简略码表有4个字符,可能会与单字的4个字符竞争,不过不用担心。本输入法的优先级排序来自220亿字典型语料库统计数据。一般情况下, 词语出现的频率低于单字的频率。只要不是生僻字或者繁体字,单字排名靠前,词语排名靠后,不会影响输入体验。

上图

86版五笔编码中,单个字使用3-4个拉丁字母

image

image

两个字的词语输入

image

三个字的词语输入

image

四个字的词语输入

image

四个字,类似拼音输入法的简拼的输入方式,使用五笔编码的第一个字母组合输入

image

唐诗三百首、宋词三百首、老子道德经、论语、诗经、李白诗句全集可以信手拈来

image

16个字的词语

image

百度百科的词条标题,这样的词语有50万个

image

五笔编码仅适用25个字母键,“z”键没有使用。
如果记不得单字的码表,可以在先输入“z”,进入临时拼音模式,再输入拼音

image

在临时拼音模式可以反查五笔码表

image

临时拼音模式下,支持简拼输入,临时拼音模式调用的是鸿雁拼音库,同样拥有230万词库。

image

软件在安卓平台也有移植版本
五笔简码输入词语


安卓平台进入临时拼音模式

鸿雁输入法安装后默认启用的是鸿雁拼音·全拼模式。
在鸿雁输入法中切换到鸿雁五笔的方法:

windows平台

image
image
image

安卓平台

软件压缩包中“五笔86版全码(41442个汉字).txt”文件包含全部的单字码表。供有需要的朋友查阅。
本软件开源免费,采用的rime系列输入法框架,这些框架都是开源的。码表、配置文件是纯文本格式。

有人在网络上发帖,希望极点五笔作者出山,他愿意付费,可惜现在还没有等到杜先生回应。

希望鸿雁五笔能够成为新时代的极点五笔。

下载链接:
https://hong-yan.lanzouw.com/b00vvkivc
密码:1234

4 个赞

现在用的是搜狗,下载试试

1 个赞

对词库有兴趣,可以独立出来用于RIME吗?

PS1:下载链接中有很多版本,不知道该下载哪个?

PS2:我主力使用小鹤双拼,IOS可用,PC的方案更复杂一些,FYI:

RIME + 英文(智能补全、纠错) + 小鹤双拼(主力) + 仓颉(辅助) + 明月全拼(小朋友使用)。特点:可以混输(无需切换),可以反查(用双拼查仓颉,或用仓颉查双拼,音码形码按需选择),可以模糊音(同时提供正确的全拼,这是口音党纠正拼音的必备神器),可以自定义词库(可以使用搜狗词库,但省却了广告干扰)、可以多电脑同步(但省却了无良商家对隐私的刺探)。

回首往事,从最早的windows自带五码86 → 万能五笔 → 极品五笔 → 极点中文 → 搜狗五笔,也是用了十多年的五笔输入法。极点中文相对前三者来说有几点做的非常人性化:
1、响应速度快,基本不卡顿
2、可以设置错码回车键清除很方便重新输入(前三者只能一个一个码的删除)
3、可以直接五笔拼音混合输入不用切换,五笔最大的问题就是如果一个字不知道怎么写就输入不了,用拼单输入的字会自动显示五笔编码,不用来回切换与查询很是方便
4、默认安装就带了介于windows五码五笔与拼音输入法之间的常用词库,大多时候是最多四码直接上屏基本不用按数字选择候选词
5、对于偶尔用数字键选词了,只要选择了几次,就会自动调频到前面,将调频的功能使用频率降到尽可能的少
6、带了命令直通车与可配置的类似阿拉伯数字转中文数字,虽然用的少但在一些特定环境还是方便的

因为极点中文停更多年,对win10兼容不好,最后只能换到跟它最相近的搜狗五笔输入法。

下载 2.0版本

1 个赞

在Windows 10下,安装鸿雁拼音输入法可以兼容RIME吗?折腾一次还是比较麻烦的。

1 个赞

不用担心,就算你不卸载原有的rime输入法,鸿雁输入法安装包会自动清理rime用户文件夹所有文件,避免词库生成问题。这和rime官方保留原来的词库索引不同。

傻瓜式的安装,图形化的设置界面,详细的说明文档,不需要你折腾

2 个赞

看上面的五笔介绍,如果2~3字的词只能全码,查词还要用 z 开头再输拼音,那这个输入法的可玩性就不高了。
1、五笔用的时间久了,通常已经习惯单字或两三字的词输入为主,因为已经成为肌肉记忆,如果打破这个规则跟拼音有什么区别?
2、以五笔为主的文字输入,用拼音通常是因为不知道这个字怎么写,临时用一下的还是要方便为主
3、习惯了基于肌肉记忆的盲打,四字或四字以上的词基本不怎么用,因为还要记住这是否是一个词及词库是否有这个词,太麻烦了

2 个赞

image

正在生成索引,请你耐心等待一会儿

2 个赞

安装之前还得再问一下:我希望鸿雁和RIME能共存,互不干扰,安装测试卸载,都不影响原有的输入法,不知是否是这样?

1 个赞

五笔输入法编码一般是3-4个拉丁字母

如果用一个字符或者两个字符输入2-3个汉字,重码率将会很高,反而不利于输入。

这与4个字的词语简编码冲突,与2-3个词语自身的简码冲突,综合分析,弊大于利。

五笔使用3-4个字母保证了汉字输入的基本唯一性。

多输入几个字母保证重码率极低,这是用空间换效率。

最后的结果是,五笔输入,2-4个汉字的词语基本上不需要使用对每一个汉字数字键选词了。
也不知道我这样的考虑对不对。

1 个赞

二者只可以选一个,你可以把鸿雁输入法的方案迁移到rime输入法或者把你在rime输入法的其他配置迁移到鸿雁输入法。因为修改软件名称安装路径是比较浩大的工程,所以,只对rime输入法作了小幅度的改动。

2 个赞

用户词典是个性化词典必备的,我还是挺依赖的,比如人名、特定领域的常用词之类,不可能都有现成的词库使用,此时个性化词典就很有必要。

安装包有一个bat脚本,删除rime用户文件夹所有文件。

其他的并没有什么可疑的地方。

1 个赞

这个就是极点中文词库的精髓了,在重码与效率之间寻找平衡,谁更方便好用才是硬道理。

2 个赞

https://www.virscan.org/report/644ecbdba0ee8884c5466f535906f963a927994ac2008c0afe23632718e478df

这是在线杀毒结果,可以看看,杀毒软件有误报的

3 个赞

五笔中2-3个汉字用全码?这和习惯相差太大。有时词组知道怎么输入,单字倒忘了 :joy: