鸿雁拼音输入法小体积安装包发布了

再次感谢分享
使用了您提到的链接评论中,受到该文启发一个使用java实现的无师自通分词软件

对用一个语料采取dict_build-0.0.3 分词和楼主自己的机械分词比较


dict_build-0.0.3 分词结果准确率更高,遗漏 了不少词语

也不能发现长度更长的固定词组。

只能说各有优点吧。

机械分词虽然存在冗余的词汇,却不会遗漏任何一个词语。

鸿雁输入法目前的方案是先统计出机械分词,然后让重叠的机械分词内部竞争。
第二种办法是机械分词与已有的开源的分词投票组合。

dict_build-0.0.3 想要应用分词,还需要改善。一个是长词的发现功能开启,另外一个是300MB的原始语料临时文件高达8GB

1 个赞

win 10版64 ,安装了。重启了。不能用。装的是加强版。无法输入汉字,只能显示拼音。望解决。

加载词库需要一段时间。

查看一下 用户文件夹 下build文件夹里面有没有hongyan_pinyin_simp.table.bin 这样的预编译词库文件

查看系统进程有没有7.0的算法后台进程。

可以用小狼毫助手重启一下输入法算法后台进程。

可以试一试重新部署一下。

目前最大的可能是:
1 安装输入法没有选择默认的路径
2 有其他rime系输入法没有卸载干净,导致后台竞争
3 重启操作系统,输入法算法后台还没有初始化完毕就开始使用输入法。
4 输入法安装过程中杀毒安全软件拦截了移动hongyan_pinyin_simp.table.bin这样的预编译词库的操作。

下载了文艺基础版。下载后马上被报病毒。在英文版的Win10下运行时被拦截,用管理者权限也不能安装。

输入法的可能敏感操作

del /F /S /Q “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime*."
del /F /S /Q "%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build*.

md “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build”
for %%a in (%*) do set /a num+=1
if “%PROCESSOR_ARCHITECTURE%”==“x86” goto x86
if “%PROCESSOR_ARCHITECTURE%”==“AMD64” goto x64
exit

:x64

if not defined num (taskkill /F /IM WeaselServer.exe)
MOVE /Y “%PROGRAMFILES(x86)%\Rime\weasel-7.0.0.0\data\hongyan_pinyin_simp.prism.bin” “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build\hongyan_pinyin_simp.prism.bin”

if not defined num (start “” “%PROGRAMFILES(x86)%\Rime\weasel-7.0.0.0\WeaselServer.exe”)
exit

终止输入法后台进程,删除用户文件夹的原有配置文件。移动词库预编译索引文件。

这些都是正常的操作。

windows安全中心经常误报的,鸿雁输入法7.0现在已经有一千多下载量,现在提到报病毒的还是第一次。

安装了文艺强化版,里面没有小鹤双拼,请问怎样添加?

安装增强版

打开 C:\Program Files (x86)\Rime\weasel-7.0.0.0\data\hongyan_pinyin_simp_flypy.schema.yaml

translator:
dictionary: hongyan_pinyin_simp

修改为

translator:
dictionary: hongyan_pinyin_simp_wenyi

保存,重新部署

1 个赞

终于找到了一个好用的输入法:手心输入法。与我此前一直使用的百度输入法特别类似,但比百度好用,纠正了百度的几个缺点,也没有任何广告之类的东西。

知乎上的一篇文章:干净无骚扰的输入法——手心输入法 - 知乎

这东西到底是个人还是公司做的?
为什么只看到论坛在说?

rime的怎么可能是什么公司做的呢咳咳呵呵

中文语法底层还是依赖分词的词性标注

分词更重要。

2 个赞

我这里有个中文之星智能狂拼Ⅱ 在2003年的时候光盘版里复制的,在XP和win7下都可以使用,就是没法使用在win10上,不知道你能否把这个修改成win10系统下可以使用的输入法。智能狂拼有个好处是自学习功能。这输入法在2003年的时候就实现了整句拼音输入,支持部分不完整拼音输入。另外这输入法应该没有那些监控用户的行为,在那个年代程序员比现在还算是正常点。序列号在readme里的第一行
中文之星智能狂拼II.part01.rar (10 MB)
中文之星智能狂拼II.part02.rar (10 MB)
中文之星智能狂拼II.part03.rar (10 MB)
中文之星智能狂拼II.part04.rar (10 MB)
中文之星智能狂拼II.part05.rar (10 MB)
中文之星智能狂拼II.part06.rar (10 MB)
中文之星智能狂拼II.part07.rar (10 MB)
中文之星智能狂拼II.part08.rar (4.5 MB)

手心输入法也不干净。之前用过,后来看到有人分析过就删了。

win 10 和 win 7 输入法架构发生了变化,接口发生了变化

简单一个补丁是没法搞定的。

内嵌技术

《智能狂拼》软件在后台的处理上采用了中文之星公司历经三年开发的CLM(中文语言模型)核心技术。该技术是在分析了覆盖经济、政治、文化、科技、教育、文学、历史、哲学、军事、体育、法律、社会新闻等众多领域100亿汉字(相当于228年《人民日报》的总字数)的基础上开发出来的新型中文语言模型技术。

鸿雁输入法也是基于语料库的分析,目前的语料库有350GB,包含1638亿个字符,有效汉字字符886亿个。

鸿雁输入法的方案是暴力穷举词组,词组最长的有16个汉字
智能狂拼更多的依赖分词,还有三元组技术

鸿雁的方案覆盖的词语更为全面,不过多余的机械词语也增加了,这种方案在技术上实现也比较简单

智能狂拼的技术依赖建立在分词技术上的三元组技术,和前者的作用差别不大。
只能狂拼最大的数据库文件就是词与词字与字之间的关系数据库,是使用专有格式的数据库,移植意义不大,除非熟知内部源代码算法。

可用的就是数据。这些拼音输入法智能狂拼算是比较早的整句拼音输入,后来出了google拼音输入法,紫光拼音,搜狗,讯飞,卡饭拼音输入法,手心输入法,客观说基本都是相互抄袭的。其实你这个鸿雁也是基于小狼毫输入法的模块

谷歌的整句输入还真的是自己自己研发的
黑马神拼的整句输入应该是早期最强的,黑马神拼和智能狂拼的整句输入都是各自独立研发的技术。

可惜,输入法市场免费大行其道。
这些有技术含量的的输入法都停止开发了,原因是不赚钱。

其实早期的微软拼音就不错,不过不能整句拼音输入,后来才有这种输入法。输入法不赚钱太正常了,因为软件很容易盗版。光盘很容易复制。所以开发出来之后很快就被复制了。赚不到钱当然就做不下去了。

智能狂拼后来的版本都没有这个版本好用。

  1. 从卡饭知道的。卡饭的帖子似乎被隐藏(移动到内部板块)了。
  2. 研究了好几次,才成功改成小鹤双拼,rime上手有点难度。建议自带双拼方案和emoji支持,国内网络安装有点难度。
  3. 建议建立开源项目(或其他形式),便于讨论、经验分享(含fork和补丁)和推广。目前讨论似乎很分散。
  4. PC版用的Rime版本,似乎有点旧了?怎么找不到原版有的“设置同步”的菜单选项,功能好像也无效果。
  5. 当前安装包将词库(hongyan_pinyin_simp_wenyi.table.bin)直接放在用户目录/build,而程序目录中不保留,是否有点问题。
  6. 如果打算长期发展,除了版权,软件名称(商标)也要考虑一下,火起来将有“商标蟑螂”碰瓷。不过大概不容易。
  7. 如果是专心做词库,也许该提供将词库接入“原版”的配置方法,来面向更大用户群?