非mdx也能所划即所得啦_日本語非辞書形辞典_v3_For_Quicker_Demo

步天歌 · 2022 年7 月 25 日 06:16

注：本文是日本語非辞書形辞典项目的Python版本的说明文档。

在以下网站都有备份：
非mdx也能所划即所得啦_日本語非辞書形辞書_v3_For_Quicker_Demo - 日语 - FreeMdict Forum
v3_For_Quicker_Demo · 语雀 (yuque.com)

前排提示：这个项目是日本語非辞書形辞書_v3 版本的 Demo 产品，可能会遇到不少问题，欢迎留言反馈:)

另外，文档在v3_For_Quicker_Demo · 语雀 (yuque.com)有备份，有问题欢迎通过GitHub或者通过邮箱 NoHeartPen@outlook.com 与我沟通。

最终效果

直接上图

（实际使用应该没有看起来的这么卡，演示时有停顿）

下载

如果你在GitHub/Gitee的README页面：打开dist文件夹，下载里面的v3_index.txt和main.exe2个文件

如果你不在项目的README页面，请通过下面的方式下载：
蓝奏云：https://wwp.lanzouf.com/b011uva4d 密码:e3h4

注意：

最好找个地方专门放，完成设置后，不要随便删也不要随便移动main.exe和v3_index.txt
解压路径中最好不要有空格
目前需要与Quicker配合使用，直接双击 exe 没有反应是正常的:)

更新说明

2022-11-06

跟进v2版本的更新
1. 支持沸きたつ、わき立つ等复合动词的异形词
2. 支持一段动词使役态口语约音食べせる（划食べせ）
只需通过用言的“非辞書形”即可推导出原型的猜想通过了日语NLP的权威工具的检验：
1. 通过 Mecab 对维基百科和青空文库进行分词，获取分词结果中的动词和形容词，然后调用非辞書算法进行验证，v3的 Python 版本的正确率达到了 99%！！！
2. 另外，顺便测试了下在剪贴板查词这样丢失了上下文的情况下，Mecab 推导辞書形的准确率：70%——这个结果并不能否定 Mecab 在日语 NLP界的权威，只是再次证明了一点：日语的剪贴板查词不能只返回一个结果（一段动词的连用形一对 Mecab 的干扰真的太大了）。
1. 补充：由于 Mecab 分词后的结果与本项目支持的划词方案略有差异，故测试时只覆盖了分词结果中的部分活用。另外，针对2个工具的特点分别对测试文本做了微调，二者并不是在完全一致的条件下进行测试，无法保证绝对中立客观，测试结果仅供参考
2. 有兴趣复现测试可以到GitHub项目主页的endorse文件下阅读详细内容，
3. 青空文库处理结果：

image1822×926 245 KB
```
 4. 维基百科处理结果：
```

本次更新需要同时更新main.exe文件和v3_index.txt文件，Quicker动作不需要更新。

下载地址https://wwp.lanzouf.com/b011uva4d 密码: e3h4，下载后解压覆盖即可

反馈

推荐到GitHub的issue处反馈

https://github.com/NoHeartPen/NonJishoKei/issues/1

也可以填写这个问卷： v3问卷反馈

使用方法

可以和这个上手视频一起看：【日本語非辞書形辞典】沙拉查词XQuicker：所见所划，即为所查

使用本项目前，需要到Quicker 官网，下载安装并注册登录。

注：可以填写我的推荐码：353808-6234，这样我们都可以获得 90 天的专业版时长笑

粘贴动作（必看）

YiDicForSaladict

YiDicEBWin

基础设置（必看）

打开 Quicker，粘贴动作，然后右键打开编辑，双击运行脚本

在脚本内容中填入下载的 exe 文件的路径（Win11 的可以通过右键点击然后复制文件路径获取，双引号可以不删）

接着在下面的工作目录填入文件夹的路径，去掉双引号和 main.exe 就可以了。

到这里基本设置就完成了。下面介绍高级选项。

注意，请确认授予沙拉查词读取剪贴板和写入剪贴板的权限（位于扩展选项-权限管理）

沙拉查词 (必看)

如果沙拉词典的在独立窗口搜索剪贴板内容的快捷键不是Alt+C，还需要进行修改。

打开编辑页面，模拟按键 B（参数）

参考快捷键语法，填入你喜欢的快捷键即可

EBWin （非必看）

默认的分享的动作需要自己提前打开 EBWin 才可以用，如果希望每次选中文本后直接启动软件查词，那么还需要另外的设置。

先把电脑上的 EBWin 软件打开，然后打开YiDicForEBWin的编辑界面

双击下面的激活进程主窗口

点击下面的红框

会发现切换到了 EBWin 的界面，随便点击 EBWin 顶部状态栏的一个位置

会发现，软件路径就自动填好了

如果上述方法搞不定的话，自己手动填也行。

当然，你也可以根据自己的需要，填入自己喜欢的词典软件，只是这样一来，需要改程序路径和进程名称/pid2 个地方。

Todo

正则支持
- 在 MS Word 中或是像軋(きし)み合(あ)わない这样的句子划词翻译，正则可以直接处理为軋み合わ
- 々ゝゞ/\/″\
- <ruby></ruby>（浏览器内划词）
支持跨行的划词，常用于扫描版的PDF文件
验证算法真实准确度
- 跟进日本語非辞書形辞書_v2
  - 0722
  - 1033
- 有 Mecab 分词语料的同学欢迎发送到 NoHeartPen@outlook.com ，只需要書字形和書字形基本形2 列的数据即可，感激不尽:)
……
欢迎提出其他意见

大致思路

举个例子简单说明下脚本的工作原理，方便大家结合自己的需要修改。

对于ご飯を食べたい这个句子，我们用鼠标选中食べた按下快捷键，Quicker 会将选中的文字复制到剪贴板，然后启动电脑上的main.exe文件，这个 exe 文件会读取剪贴板，获取到最近一次复制的内容，即食べた。

然后程序会读取最右侧的假名即た，根据 v2 版本的词条规律我们可以知道，た出现在词尾假名说明要么是一段动词，要么是五段动词（注：技术细节处会给出这么假设的相关数据）。

我们先假设它是五段动词，然后程序会将た替换为つ，然后在这个v3_index.txt文件中查找有没有食べつ这个动词。
……
找了一圈没有，那说明这个我们的假设是错误的。

然后程序会验证另一种假设：将词尾た替换为る，然后再去v3_index.txt文件中查找食べる，很幸运，这次找到了。

程序会将找到的食べる写入剪贴板，Quicker 检测到剪贴板内容发生变化后就会调起词典软件了（所以你也可以在支持 mdx 的 GoldenDic 上用，享受双倍的快乐）。

另外，v3_index.txt里面保存的原型数量也会影响最终的效果，可以自由向里面添加收集到的单词。

技术细节

可能有人会好奇，最近怎么突然高产了起来~~开始刷版本号~~，v2 版本都才出一周多，怎么这么快 v3 版本就来了。

这是因为 v3 版本其实是 v2 版本的逆过程，而且 v3 版本之后的改进在很大程度上取决于 v2 版本的成果，所以先制作了这么一个小工具，供有兴趣的同学折腾。

接下来是正文：

如果有人分析过 v2 版本的源文件，就会注意到穷举出的变形的词尾假名似乎重复率有点高呀，有没有什么规律呢？

我们把词尾部分都提取出来，整理下得到下面这个表格：

查阅这个表格我们就知道た只能由一段和五段动词产生，但具体是谁我们只能采用笨办法：查原型来判断。

虽然有一半左右的的词尾假名都只有一种来源，但在丢失了上下文的情况下，我们可能都需要进行 3 次替换和 3 次遍历查找，不过好在即使是最差的情况，大多数人的电脑应该也能满足日常的需要。

不过，即使把 v2 的 172580 个词条都给查一遍，也只要区区6 分钟

~~所以这算法也没有那么烂吧……QAQ~~

最后，手动@MOJi、@沙拉查词、@EBWin、@欧路词典、@Yomichan、@AnkiHelper 等开发者，最强开源日语取词算法的 Python 版本已经托管在 Github 上啦，欢迎 PR 和提交 issue 呀:)
https://github.com/NoHeartPen/JapaneseConjugation

更新历史

2022-09-03

鸽了一个月的上手视频【日本語非辞書形辞典】沙拉查词XQuicker：所见所划，即为所查
支持 MS Word 的注音或是像軋(きし)み合(あ)わない这样的句子划词（后台处理为軋み合わ）
支持所有踊り字标记：々ゝゞ/\/″\，还原为大多数词典都会收录的形式
优化扫描版的PDF文件的查词体验，
1. 支持跨行的划词
2. 自动删除OCR中经常出现的半角空格

本次更新只需下载main.exe即可，其余文件没有改动。

2022-08-03

支持返回多个结果
索引文件新增单词
提高准确率，v3 版本现在返回的结果与 v2 基本一致啦

本次更新需要同时更新 Quicker 动作和 main.exe、index_v3 文件才可使用

Quicker 动作更新：右键-来源动作-更新即可

main.exe 和 index_v3 文件下载地址https://wwp.lanzouf.com/b011uva4d 密码:e3h4，下载后解压覆盖即可

surfactant · 2022 年7 月 25 日 06:57

看了半天没整明白，你这是不是用 Quicker 把多个软件整合起来的意思？还是自己写了个新的软件？

步天歌 · 2022 年7 月 25 日 07:05

是用 Quicker 来整合起来的。

自己写了点代码，可以解决日语的用言变形对划词翻译的影响（类似英语单复数以及过去式），但由于技术不过关，不能直接PR到日语词典软件上，再加上目前的准确度不是很高，有待完善，所以现在先用Quicker来整合。

另外，主要是目前为止对于日语的变形问题，没有一个软件支持得很好，最后除了最后提到的那几个软件之外，还有kindle（实测也有问题，也不能处理复杂变形），网易有道词典笔（直接不支持日语划词，只支持中日的整句翻译，估计是发现即使买了日语词典不解决变形就基本等于不能用）

surfactant · 2022 年7 月 25 日 07:07

第一次知道有 Quicker 这个东西，大概就相当于 AHK 或者安卓上的 Tasker吧，回头研究一下

步天歌 · 2022 年7 月 25 日 07:10

嗯嗯，不过我忘了说，这软件不开源，要收费（但比较合理，一年50左右），另外不注册登录就不能用，，轻度使用的话，不付费也行233

surfactant · 2022 年7 月 25 日 07:10

好东西收费是应该的

步天歌 · 2022 年7 月 25 日 07:13

主要是我这几天才看到了有关这个软件收费和强制登录的讨论，就下意识地打打预防针（主要是那几篇文章的老哥太冲了）

surfactant · 2022 年7 月 25 日 07:15

我一向认为好东西收费天经地义，而且收费了就有责任做好，也是一种改善的动力

surfactant · 2022 年7 月 25 日 07:18

Quicker 是个国产的，恕我有点崇洋媚外，难道这种通用的粘合剂软件没有国外的更主流一些的？感觉AHK也能干这个事情，安卓上的 Tasker 更不用说

步天歌 · 2022 年7 月 25 日 07:36

啊，我比较喜欢的是他的场景和快捷键功能，再加上我一开始就是为了用别人分享的动作才下载的，所以就懒得折腾AHK了。

场景就是，在不同的软件界面内，同一套快捷键可以调用不同的工具，比如我在资源管理器上ctrl+鼠标右键调用的是

在笔记软件里面调用的是

快捷键的特殊：不止ctrl+alt这样的模式（虽然这样的思路我在AHK上也有看到），各种奇怪的快捷键模式都支持，让我意识到什么是真正的快捷键，点名批评Win11上的那个shfit+F10的快捷键，我只想问设计者真会这么用吗……

最后，有比较成熟的社区和大量别人分享的项目可以白嫖（而且要改成符合自己习惯的也没有那么难），小白也可以用得很欢乐。~~好吧其实是看了下AHK文档被劝退了~~

surfactant · 2022 年7 月 25 日 07:54

AHK 快捷键也可以方便地限定在特定的活动软件下有效。你这样能整合出一套完整、有实用价值、方便非专业用户使用的解决方案，倒也是个不错的创新。

kapas · 2022 年7 月 26 日 05:40

啥意思
v3出来了
就是说v2的版本，算是已经完成了？

步天歌 · 2022 年7 月 26 日 09:32

哈哈哈，没有没有，这个只是v3的一个雏形吧，v2还是会继续维护的（古语都还没开始动呢），不过v2能够暴力穷举的部分已经做得差不多了（古语还暂时不会做），最近的维护工作可能就是手动修改增加词条了。

不出意外的话，日本語非辞書形辞典应该就这3个版本了，他们之间的区别：

不基于词性、真·暴力穷举的v1：放弃维护；
基于词性暴力穷举的v2：以mdx词典形式发布，持续维护；
基于v1和v2的经验，让词典软件能推导辞書形的v3：以代码形式发布，持续维护，欢迎大家去给日语词典软件开发者反馈，推荐他们尝试下这种不基于语法的日语划词翻译解决方案:)

步天歌 · 2022 年8 月 3 日 08:42

重大更新

kapas · 2022 年8 月 3 日 10:46

话说quicker到底是个啥？看了官网没看懂。。。

为啥v3不做mdx？

mdict6 · 2022 年8 月 3 日 11:32

你估计没用过沙拉查词，你去看看使用简介就会用quicker啦

步天歌 · 2022 年8 月 3 日 12:45

不好意思，我过几天录一个视频演示下如何从零上手:)，或者也可以等我修改沙拉查词的源码，到时候就可以不用装Quicker了（不过最快可能要9月底）

v3版本做不了mdx，因为推断「辞書形」只是v3的一个目标（这一点来说，v2和v3是基本一样的，以后v2更新的话，v3也会更新）；

v3的重头戏是：解决日文独有的排版问题（下次更新才会开始解决哈）

所以如果不在意日文独有的排版问题，可以忽略v3版本

比如Word标注了读音之后：

选中查词就会发现剪贴板上的是 食(た)べる，而我们实际要查的是食べる，所以这种时候我们也得自己手动打。

不过考虑到没有几个会在Word里面手动注音然后才翻词典，所以并不值得为了个Word专门做v3。

但是很多公众号也喜欢用类似的方法来标音，所以这个需求还是有解决的价值。不过，这个在mdx里面做起来就太麻烦了~~其实是我太弱了233~~，也没有必要——词典体积至少要翻5倍。

再比如青空文库里面那些奇怪的标注方式

（这里面的标记々已经在v2里面解决，//″\稍微麻烦点——要手动判断清浊音，但我懒得搞；ゝゞ最麻烦，任意2个靠得近的假名似乎都可以直接用这个标记来表示（我是从刺青得出的结论），如果非要穷举的话，估计词典体积也得翻5倍）

最后，如果是看网页的话，下面这样的标记复制到剪贴板后，会变成类似怒鳴どなる这样完全搅在一起的状态

当然，也可以穷举（但是词典体积至少又得翻五倍），而且也很麻烦。如果从软件角度是可以比较轻松的解决这个问题（注：仅限于电脑浏览器，手机浏览器可能不行）。

（多说一句，如果用FireFox就不会搅在一起）

综上，v3版本要做的事情用mdx来做太麻烦了，全部实现的话，词典至少15M起步，这样一来，就要修改、维护一个200M的文件，我的电脑实在遭不住。

而且我也尝试了下，差点把我给搞自闭了：原理和把下面的读音给批量替换成需要的形式是一致的。

と‐・す 【賭】
たいくつ‐が・る 【退屈─】  退屈がる  
そり‐こく・る 【剃─】  剃こくる  
たか‐ぶ・る【高─・昂】品词  高ぶる  
たか‐ぶ・る高  高ぶる  
あい‐くろし・い 【愛─】  愛くろしい  
あい‐ぐ・す 【相具】  相具す  
あが・る【上・揚・挙・騰】上る、揚る、挙る、騰る
そり‐かえ・る 【反返】  反返る

~~看出规律了吗，没看出来的话，和楼主一起等大佬出手吧:)~~

~~另外，给这项目起名字好像又没有取好233~~

步天歌 · 2022 年9 月 6 日 10:27

久违的更新233，另外日本語非辞書形辞典迎来了首个JavaScript版本, 日本語非辞書形辞典_v3_For_MOJi&Auto.js_Demo，不过非常鸡肋，大家有兴趣的话也可以去了解下:)

步天歌 · 2022 年11 月 7 日 13:52

步天歌:

2022-11-06

跟进v2版本的更新

支持沸きたつ、わき立つ等复合动词的异形词

支持一段动词使役态口语约音食べせる（划食べせ）

只需通过用言的“非辞書形”即可推导出原型的猜想通过了日语NLP的权威工具的检验：

通过 Mecab 对维基百科和青空文库进行分词，获取分词结果中的动词和形容词，然后调用非辞書算法进行验证，v3的 Python 版本的正确率达到了 99%！！！

另外，顺便测试了下在剪贴板查词这样丢失了上下文的情况下，Mecab 推导辞書形的准确率：70%——这个结果并不能否定 Mecab 在日语 NLP界的权威，只是再次证明了一点：日语的剪贴板查词不能只返回一个结果（一段动词的连用形一对 Mecab 的干扰真的太大了）。

补充：由于 Mecab 分词后的结果与本项目支持的划词方案略有差异，故测试时只覆盖了分词结果中的部分活用。另外，针对2个工具的特点分别对测试文本做了微调，二者并不是在完全一致的条件下进行测试，无法保证绝对中立客观，测试结果仅供参考

有兴趣复现测试可以到GitHub项目主页的endorse文件下阅读详细内容，

青空文库处理结果：

image1822×926 245 KB
 4. 维基百科处理结果：
本次更新需要同时更新main.exe文件和v3_index.txt文件，Quicker动作不需要更新。

下载地址https://wwp.lanzouf.com/b011uva4d 密码: e3h4，下载后解压覆盖即可

哈哈哈哈，本项目的正确率高达99%~~虽然有一定的水分233~~，终于担得起“最强”二字了（请允许我嘚瑟一下:)