鸿雁拼音输入法小体积安装包发布了

hongyan30 · 2022 年10 月 30 日 04:43

再次感谢分享
使用了您提到的链接评论中，受到该文启发一个使用java实现的无师自通分词软件

对用一个语料采取dict_build-0.0.3 分词和楼主自己的机械分词比较

dict_build-0.0.3 分词结果准确率更高，遗漏了不少词语

也不能发现长度更长的固定词组。

只能说各有优点吧。

机械分词虽然存在冗余的词汇，却不会遗漏任何一个词语。

鸿雁输入法目前的方案是先统计出机械分词，然后让重叠的机械分词内部竞争。
第二种办法是机械分词与已有的开源的分词投票组合。

dict_build-0.0.3 想要应用分词，还需要改善。一个是长词的发现功能开启，另外一个是300MB的原始语料临时文件高达8GB

forestfarmer · 2022 年10 月 30 日 14:30

win 10版64 ，安装了。重启了。不能用。装的是加强版。无法输入汉字，只能显示拼音。望解决。

hongyan30 · 2022 年10 月 30 日 15:06

加载词库需要一段时间。

查看一下用户文件夹下build文件夹里面有没有hongyan_pinyin_simp.table.bin 这样的预编译词库文件

查看系统进程有没有7.0的算法后台进程。

可以用小狼毫助手重启一下输入法算法后台进程。

可以试一试重新部署一下。

目前最大的可能是：
1 安装输入法没有选择默认的路径
2 有其他rime系输入法没有卸载干净，导致后台竞争
3 重启操作系统，输入法算法后台还没有初始化完毕就开始使用输入法。
4 输入法安装过程中杀毒安全软件拦截了移动hongyan_pinyin_simp.table.bin这样的预编译词库的操作。

Unijump · 2022 年10 月 31 日 01:11

下载了文艺基础版。下载后马上被报病毒。在英文版的Win10下运行时被拦截，用管理者权限也不能安装。

hongyan30 · 2022 年10 月 31 日 01:25

输入法的可能敏感操作

del /F /S /Q “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime*."
del /F /S /Q "%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build*.”

md “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build”
for %%a in (%*) do set /a num+=1
if “%PROCESSOR_ARCHITECTURE%”==“x86” goto x86
if “%PROCESSOR_ARCHITECTURE%”==“AMD64” goto x64
exit

:x64

if not defined num (taskkill /F /IM WeaselServer.exe)
MOVE /Y “%PROGRAMFILES(x86)%\Rime\weasel-7.0.0.0\data\hongyan_pinyin_simp.prism.bin” “%SYSTEMDRIVE%%HOMEPATH%\AppData\Roaming\Rime\build\hongyan_pinyin_simp.prism.bin”

if not defined num (start “” “%PROGRAMFILES(x86)%\Rime\weasel-7.0.0.0\WeaselServer.exe”)
exit

终止输入法后台进程，删除用户文件夹的原有配置文件。移动词库预编译索引文件。

这些都是正常的操作。

windows安全中心经常误报的，鸿雁输入法7.0现在已经有一千多下载量，现在提到报病毒的还是第一次。

mxlcpu · 2022 年10 月 31 日 12:04

安装了文艺强化版，里面没有小鹤双拼，请问怎样添加？

hongyan30 · 2022 年10 月 31 日 15:50

安装增强版

打开 C:\Program Files (x86)\Rime\weasel-7.0.0.0\data\hongyan_pinyin_simp_flypy.schema.yaml
把
translator:
dictionary: hongyan_pinyin_simp

修改为

translator:
dictionary: hongyan_pinyin_simp_wenyi

保存，重新部署

aimdict · 2022 年11 月 4 日 04:36

终于找到了一个好用的输入法：手心输入法。与我此前一直使用的百度输入法特别类似，但比百度好用，纠正了百度的几个缺点，也没有任何广告之类的东西。

知乎上的一篇文章：干净无骚扰的输入法——手心输入法 - 知乎

Vim · 2022 年11 月 5 日 00:04

kapas · 2022 年11 月 5 日 02:04

这东西到底是个人还是公司做的？
为什么只看到论坛在说？

ad困困 · 2022 年11 月 5 日 03:00

rime的怎么可能是什么公司做的呢咳咳呵呵

hongyan30 · 2022 年11 月 5 日 04:51

中文语法底层还是依赖分词的词性标注

分词更重要。

M303 · 2022 年11 月 9 日 10:43

我这里有个中文之星智能狂拼Ⅱ 在2003年的时候光盘版里复制的，在XP和win7下都可以使用，就是没法使用在win10上，不知道你能否把这个修改成win10系统下可以使用的输入法。智能狂拼有个好处是自学习功能。这输入法在2003年的时候就实现了整句拼音输入，支持部分不完整拼音输入。另外这输入法应该没有那些监控用户的行为，在那个年代程序员比现在还算是正常点。序列号在readme里的第一行
中文之星智能狂拼II.part01.rar (10 MB)
中文之星智能狂拼II.part02.rar (10 MB)
中文之星智能狂拼II.part03.rar (10 MB)
中文之星智能狂拼II.part04.rar (10 MB)
中文之星智能狂拼II.part05.rar (10 MB)
中文之星智能狂拼II.part06.rar (10 MB)
中文之星智能狂拼II.part07.rar (10 MB)
中文之星智能狂拼II.part08.rar (4.5 MB)

M303 · 2022 年11 月 9 日 10:45

手心输入法也不干净。之前用过，后来看到有人分析过就删了。

hongyan30 · 2022 年11 月 9 日 11:17

win 10 和 win 7 输入法架构发生了变化，接口发生了变化

简单一个补丁是没法搞定的。

内嵌技术

《智能狂拼》软件在后台的处理上采用了中文之星公司历经三年开发的CLM(中文语言模型)核心技术。该技术是在分析了覆盖经济、政治、文化、科技、教育、文学、历史、哲学、军事、体育、法律、社会新闻等众多领域100亿汉字(相当于228年《人民日报》的总字数）的基础上开发出来的新型中文语言模型技术。

鸿雁输入法也是基于语料库的分析，目前的语料库有350GB，包含1638亿个字符，有效汉字字符886亿个。

鸿雁输入法的方案是暴力穷举词组，词组最长的有16个汉字
智能狂拼更多的依赖分词，还有三元组技术

鸿雁的方案覆盖的词语更为全面，不过多余的机械词语也增加了，这种方案在技术上实现也比较简单

智能狂拼的技术依赖建立在分词技术上的三元组技术，和前者的作用差别不大。
只能狂拼最大的数据库文件就是词与词字与字之间的关系数据库，是使用专有格式的数据库，移植意义不大，除非熟知内部源代码算法。

M303 · 2022 年11 月 9 日 11:21

可用的就是数据。这些拼音输入法智能狂拼算是比较早的整句拼音输入，后来出了google拼音输入法，紫光拼音，搜狗，讯飞，卡饭拼音输入法，手心输入法，客观说基本都是相互抄袭的。其实你这个鸿雁也是基于小狼毫输入法的模块

hongyan30 · 2022 年11 月 9 日 11:25

谷歌的整句输入还真的是自己自己研发的
黑马神拼的整句输入应该是早期最强的，黑马神拼和智能狂拼的整句输入都是各自独立研发的技术。

可惜，输入法市场免费大行其道。
这些有技术含量的的输入法都停止开发了，原因是不赚钱。

M303 · 2022 年11 月 9 日 11:28

其实早期的微软拼音就不错，不过不能整句拼音输入，后来才有这种输入法。输入法不赚钱太正常了，因为软件很容易盗版。光盘很容易复制。所以开发出来之后很快就被复制了。赚不到钱当然就做不下去了。

M303 · 2022 年11 月 9 日 11:29

智能狂拼后来的版本都没有这个版本好用。

yfdyh000 · 2022 年11 月 12 日 21:41

从卡饭知道的。卡饭的帖子似乎被隐藏（移动到内部板块）了。
研究了好几次，才成功改成小鹤双拼，rime上手有点难度。建议自带双拼方案和emoji支持，国内网络安装有点难度。
建议建立开源项目（或其他形式），便于讨论、经验分享（含fork和补丁）和推广。目前讨论似乎很分散。
PC版用的Rime版本，似乎有点旧了？怎么找不到原版有的“设置同步”的菜单选项，功能好像也无效果。
当前安装包将词库（hongyan_pinyin_simp_wenyi.table.bin）直接放在用户目录/build，而程序目录中不保留，是否有点问题。
如果打算长期发展，除了版权，软件名称（商标）也要考虑一下，火起来将有“商标蟑螂”碰瓷。不过大概不容易。
如果是专心做词库，也许该提供将词库接入“原版”的配置方法，来面向更大用户群？