鸿雁拼音输入法windows版和安卓版(拥有230万词库、基于220亿字典型语料库的统计词频)

很抱歉,你猜錯了,我不需要用殺毒軟件.我所用的電腦都是裸奔,殺毒軟件從某個角度來説叫家賊.用殺毒軟件的人絕大多數是小白.

1 个赞

大佬,求支持虎码,比王码五笔好太多了

给我码表,最快15分钟搞定。
不知道你说的虎码是什么输入方案。

1 个赞

公认的比王码五笔好。虎码官群 775237860。
我不会转词库,求大佬帮转。群文件有虎码码表,或者我发你码表文件也行

虎码也是形码的一种,因为追求极致的低重码率,虎码的字根是乱序的,需要大量的练习。

虎码码表,全码十万字,gb 三万字
下载链接

密码 wo8a89

1 个赞

虎码移植版来了

下载链接:
https://hong-yan.lanzouw.com/ipVr10aj226f

解压后,把hongyan_pinyin_simp_5bi.dict.yaml文件复制到文件夹

C:\Program Files (x86)\Rime\weasel-3.0.0.0\data

右键任务栏图标,打开菜单,点击重新部署,词库索引生成完毕后,你的虎码移植版就可以使用了。

因为原来的五笔方案没有简码,所以这个词库也没有采用简码,一个汉字至少需要三个字母才能输入。

四个字以及以上的词语可以使用虎码首字母组合省略输入。

可能这个移植版最大的好处是,可以输入词语最后选择数字,对单字数字键的选择大大减少

虎码?有键盘字根表图片,或者字根是什么,键盘表图片贴吧找到了


字根呢

1 个赞

虎码不是五笔 :joy:

虎码是双编码方案(一个字根对应两个字母,大码+小码,小码是音托),去年年底出的新方案

字根是用先进的算法随机分布在键位上的,乱序高性能方案

定位就是 常用字极低重、手感好,大字集需选重,但按 字源 形近 将 变体归并到主根,减少记忆量,且超集的怪字也很好打出来

虎码是推荐纯单打法,目前一半用户都是纯单(一个词都不打)

目前完成了 基本区+扩A 的拆分校对,超集字会在未来半年完善

虎码标准字根图 GB2312+通规字集


虎码全字集字根图 (目前到扩G,3个月内会把扩H补上)


虎码测评图

虎码目前的校对完善工作就是我在弄,目前还不想太快推广,我是打算过几个月等 扩H+超集 都完善了,再把对应的字根练习软件都搞好,再来论坛推的 :grinning:

3 个赞

偶遇编码大神

2 个赞

虎码 那么先观望吧 看看后续
五笔多年没用也生锈了 咳咳

1 个赞

有没有五笔相关的epub电子书发一个,网上找不到了

1 个赞

https://om.chirmyram.com/doc/出版/Epubee小蜜蜂/ePUBee小蜜蜂%20-%20副本%20(18)/b3/新手易学_五笔打字.epub?preview

https://om.chirmyram.com/doc/出版/Epubee小蜜蜂/ePUBee小蜜蜂%20-%20副本%20(25)/f4/五笔字型2日速成.epub?preview

1 个赞

谢了谢了先研究着

这个就高大上了。

腾讯nlp开源项目 腾讯AI Lab,自然语言处理(NLP)研究

这其中有一个 * 大规模中文词向量: 提供在300亿词的语料上训练的、包含8百万词汇的中文词向量数据,向量维度为200维。

这个数据库可以通过一个高维空间向量之间的空间关系推测出

两个词语的距离和两个词语的相似度,两个词语的前后关系。

知道为什么是300亿词吗?
那是在一定大小内存下的哈希比较上限。

我相信腾讯还不至于使用几百GB,几TB的内存。
哈希运算库为了保证足够小的哈系运算碰撞率,只能提高每一个词语的哈希数值相关的位数。
800万的词语只是冰山一角,完全统计的词语可能上千万,上亿。
由此推理,腾讯npl研究项目,采用的机器差不多使用128GB以内内存的机器,能单次处理语料库差不多在300亿词左右。

语言分析代价比较高,比较靠谱的数据,可能需要PB级别的数据。

友情提示,鸿雁拼音输入法,目前的语料库上升到700亿字,初步筛选出来的有效词语有2.5亿个。

数据分析是分次统计的。

其中初步统计数据有70亿行。

去除相似词语推荐,比如:

“ 煮酒论英雄
青梅煮酒论英雄
曹操煮酒论英雄
青梅煮酒
关羽温酒斩华雄
桃园三结义
温酒斩华雄
三英战吕布
桃园结义”

再除去,中文语法逻辑分析,

鸿雁输入法的词库,至少在目前已知的语料统计数据库里,可能是是质量最好的

2 个赞

虽然人类科技近来几百年发生翻天覆地的变化,还是不要低估大自然的智慧。

至少身为地球上智力最高的生物,我们人类自己是被造物主造出来的。

生物,尤其是灵长类的智力,用薛定谔《生命是什么》这里面的观点。
相当一部分涉及生命化学的原理,人类目前根本无法搞清楚。

许多蛋白质之间的相互作用,涉及到量子力学,量子化学。

尽管现在量子计算非常热门,你见到哪一个科学研究机构摸到真正仿态生物智能的门槛了?

虽然人类现在是地球主宰,所知多学的只不过是宇宙奥秘的冰山一角。

想到一件事和这件事能不能做成是两码事。

从一个在造物主手里诞生的智慧生命体到自身变成一个新的造物主,这之间需要很长的路才能走完。

或许智慧生命体还没进化到这个文明阶段,所在恒星星系早就烟消云散。恒星也就几十亿年的寿命。

2 个赞

虎码其实已经发布了,现在基本完善。虎码的设计是主单字的方案,大部分用户打的就是纯单字,一个词都不打。
最近半年在弄新方案的拆分,新方案是纯单字的,拆分搞了一大半,自己搞了个常用9000字来算,无重手,手感好,当量能压到很低,极致单字性能,可以理解为一个手感完美的短码长英打。
其实只要打习惯了,空格就是一个字条反的一部分,很流畅的,一个无重的单字方案,就和打整句一样,确定性99.99%的整句 :grinning:

形码和音码必然是各自走向两个极端的,形码尽头是纯单,音码是词和整句。

2 个赞

虎码重码率比张码低吗?如果比张码有优势,就考虑迁移