注:本文发布在如下平台:
Github
Gitee
FreeMdict论坛
[PDAWIKI]
语雀
好消息:日本語非辞書形辞典_v2 真的来啦。
关于这本词典作用及用法请参考v1 算法细节,简单来说,这个辞典的作用是让你可以用最短的时间查到一个单词——有“复制”和“粘贴”这2个强大的工具在,我们为什么还要自己慢慢地打字呢?
因为日语在实际使用时,会出现词典不会收录的「非辞書形」:
活用(食べられない)、复合动词的异形词(沸きたつ、わき立つ)、专门用片假名书写的单词(チョコチョコ、クマ)
另外,在阅读翻译成日语的中文材料时,其中的人名、地名等往往会处理处理成中文简体字,比如紀貫之→纪贯之,澤野弘之→泽野弘之……还有部分サ変動詞,比如“競争”能猜出来是“竞争”,但直接输入“竞争”,在EBWin和《大辞泉》等日日词典上是看不到结果的。
针对以上问题,本项目提供的mdx文件都可以解决,实现最丝滑的查词体验:
(词典软件:GoldenDict)
词典软件:欧路词典
另外,基于纯代码的日本語非辞書形辞典_v3 版本已经开始测试了,由于不是以 mdx 格式的词典的形式,v3 版本可以调用 EBWin、沙拉查词等软件,但目前存在一定的上手难度,有兴趣、愿意尝试的可以戳这篇文档v3_For_Quicker_Demo · 语雀 (yuque.com)
下载
2023-01-21
- 为了更好地支持日语【异形词】,重构了项目使用的索引
- 尝试支持自定义索引,如果你认为更新后的跳转链接过多或者发现太多跳转链接是无效的,可以删除
v2\index\index.txt
里的词条,将自己手上词典词条导入其中,运行v2\main.py
打包即可 - 重构索引的原则:优先以单词的读音作为【辞書形】,作为第一个跳转链接;词典收录的单词汉字书写不太统一,统一发布的版本考虑到兼容,会以本人能收集到的所有词典作为单词汉字书写的标准,力求收录所有【非辞書形】和【辞書形】
- 这个优化是【日本語非辞書形辞典_idx_KOReader_特供版】、【日本語非辞書形辞典_txt_AnkiHelper_特供版】和【日本語非辞書形辞典_mobi_kindle_特供版】等v2版本【mdx2all】子项目的前瞻测试,相关文件夹已新建完毕,敬请期待233
- 尝试支持自定义索引,如果你认为更新后的跳转链接过多或者发现太多跳转链接是无效的,可以删除
- 整理形態素解析辞典 IPAdic、JUMAN、UniDic的数据,新增40万词条(以名词的异形词和形容词的口语约音为主)(604458->1004008)
最后,向IPAdic、JUMAN、UniDic的制作人员和研究机构说一句发自内心的“ありがとうございます!”,没有你们的付出就没有这次的更新:)
最先更新:
GitHub(如在非 GitHub 页面请勿使用这种方法):
release_pub (网速问题自行解决)
Gitee(如在非 Gitee 页面请勿使用这种方法):
release_pub (须登录才可下载)
以下平台为本人手动上传存在一定的延迟:
FreeMdict论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30
123网盘: 日本語非辞書形辞典_ - 123云盘
蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8
下载的文件需要导入欧路词典、GoldenDict 等才可使用,具体导入方法可以参考GoldenDict 的下载、安装、使用。
另外,导入成功后打开软件的剪贴板查词功能(其他软件请自行百度):
- Goldendict(Win):
编辑
-首选项
-热键
-使用下列热键翻译剪贴板中的单词
,按自己习惯设置快捷键即可
待办
- [ ] 按照品词标签进行分类,并会从语法角度检查生成非辞書形是否正确
- [ ] v1 版本的尝试
- [ ] 词组查询优化(は、が、を、も)
- [x] 复合动词(这个还是没有头绪只能慢慢收集、修改了)
- [ ] 数据来自
- [ ] 简体汉字和日文汉字
- [ ] 完善各类标记符号
- [x]
々
,v1 版本需要手动输入たびたび
或者度度
,但有了 v2 版本、看到度々
就不用手打啦 - [ ]
/\
和/″\
青空文库上常见的格式 - [ ] 和上面基本是一样的,但是区分了浊音
- [ ]
こう云って清吉は、しげ/\と娘の姿を見守った。
- [ ]
彼は今始めて女の妙相を
しみ/″`味わう事が出来た。`
- [ ]
- [ ]
ゝ
和ゞ
- [ ] v2 版本不打算解决这个问题
- [ ]
清吉と云う若い刺青師の``腕きゝ``があった。
- [ ]
その刺青こそは彼の生命のすべてゞあった
- [x]
- [ ] 支持查阅古语变形
下面不涉及太多技术细节,但却是 v2 版本最关键的改进,希望大家有耐心读一下,能指出遗漏之处就太好了。
可以到v2 算法细节阅读原文(文章结构更清晰)
大致思路
主要是结合活用,做法大体上和v1 版本保持了一致:仍然是批量换词尾假名。
这里只列举与v1 版本差别较大的地方。
サ変
する・ずる
注意,这里想讨论的不是散歩する
这样词形未发生变化的单词。
而是サ行変格活用这个页面里谈到的,只有一个汉字词(比如発する
)以及浊化为了ずる
(比如準ずる
)的单词,以下面这句话为例进行说明:
待遇は正会員に準じて手当てをする
词尾部分被替换为じ
,所以也需要单独处理。
但是这类单词之前没有专门思考过,所以下面的处理方法可能存在比较大的问题。
然后是我个人研究出的结论:
する需要被至少需要被替换为:
し
、せ
、さ
、すれ
、しろ
、せよ
、そ
う
ずる需要被至少需要被替换为
じ
、ぜ
、ずれ
、じれ
、じろ
、じよ
、ぜよ
但问题是需要被替换为ぞ
么?在サ行変格活用没有找到这样的表述。
す・ず
这类单词似乎是古语里面用得比较多,而且原网页也没有说明古语的变形,所以暂时只处理为し
,如果有这类动词的例句欢迎补充。
一段动词查询优化
先说结论:
下一段动词的词尾(至少)需要替换为ろ、よ、な、ま、た、れ、て、ら、さ、ず、ぬ、、
(中顿形,没有手滑 233)、ちゃ・ち、ん、と
下面是实例:
なー晩ご飯を食べながテレビを見る
和晩ご飯を食べない
まー晩ご飯を食べます
たー晩ご飯を食べた
れー晩ご飯を食べれば、
てー晩ご飯を食べてからタバコを吸う
らー晩ご飯を食べられる人は幸せだな
、ー晩ご飯を食べ、
さー晩ご飯を食べさせる
ずー晩ご飯を食べず
ぬー晩ご飯を食べぬ
んーまだ子供にすぎん
とーご飯を食べとくしてください
,口语ておく
ちゃ・ちー食べちゃう
计算机系统上,ちゃ是由ち和ゃ组成,但考虑到划词可能不会那么准,故同时支持 2 种
……
(欢迎大家补充,为增强说服力,最好以词组的形式)
接下来是为什们要这样做的原因:
与 v1 一样,本项目的核心的逻辑还是穷举出所有非辞书形
,但 v2 版本是真正试图穷举一个动词的词尾假名
有多少种变化——不管是哪种动词,来る也不例外。
v1 版本中,下一段动词的所有变形都以去掉了词尾
的方法来处理。
以晩ご飯は食べたが、……
这句话为例,v1 版本中需要划食べ
查询(即按照部分语法书说的,下一段动词的变形可以理解为去掉了词尾假名)
但这种做法一定程度上加大了使用难度,同时也导致了穷举结果的混乱(v1 版本的部分词条出现一大堆结果就是这个原因)
最后,v2 版本计划支持日语古语。
考虑到很多动词的现代日语形式和古语之间的联系比较紧密,如果继续采用 v1 版本偷懒的做法,可能会遇到比较严重的词条重复问题。
更新历史
2022-10-30
- 整理日国研提供的複合動詞レキシコン数据,新增复合动词的异形词非辞書形近10万条(468443→604458):
- 一段复合动词常见前项342个,常见后项127个
- 五段复合动词常见前项485个,常见后项270个
- 有兴趣了解上述常见前项和后项,可以到论坛网盘的
其他
-复合动词常见前后项
文件夹下载
- 优化自动打包流程,清理重复词条1448项
2022-10-16
- 补充大量平假名词条(即不限于拟声拟态词)
- 支持
沸きたつ
、わき立つ
等异形词及其活用,提供沸き立つ
、わきたつ
2种跳转链接- 使用日国研提供的複合動詞レキシコン数据,共计2759个动词(其中五段复合动词1821个,一段复合动词936个,还有2个
数え切れない
和煮え切らない
一般以惯用表达的形式出现,且不以动词规律活用已剔除),如果有补充的话,欢迎到项目的地址提交issue,或者通过 NoHeartPen@outlook.com
- 使用日国研提供的複合動詞レキシコン数据,共计2759个动词(其中五段复合动词1821个,一段复合动词936个,还有2个
- 重构项目代码,自动化打包流程
- 新增对一段动词的使役态口语约音
食べせる
的支持,划食べせ
可以提供跳转链接 - 删除品词分类错误的动词
伏せる
2022-07-30
- 补充来自《三省堂スーパー大辞林 3.0》的词条
欢迎补充反馈:)
2022-07-26
- 删除部分无法跳转的词条,比如:湧き上(が)る
2022-07-22
- 补充一段动词词尾变形:ん、と、ち、ちゃ
- 补充形容词尾变形:す
- 补充假名可以灵活书写的单词以及相关变形:当たる・当る/素晴らしい・素晴しい等等
- 修复
\n
处理的逻辑,防止遗漏文件的最后一个词条
2022-07-18
- 基于品词穷举,基本覆盖现代日语中的四大类动词
- 彻底解决 v1 版本中输入「辞書形」时结果混乱冗余的问题,现在是真·非辞書形辞典啦,而且现在只有 1M 多
- 手动补充不规律的变形
- 补充形容词的词尾变换:
高そ
うだ - サ変:準ずる、愛する这类比较特殊的サ変动词,遇到的问题比较大,具体细节在[## サ変](## サ変)
- 来る、行く
- 补充形容词的词尾变换:
2022-07-14
好消息:「日本語非辞書辞書」v2 要来啦
坏消息:楼主只是新建了日本語非辞書形辞典_v2
文件夹
好消息:楼主更新了「日本語非辞書形辞典」——删了一大堆重复词条(比如マス),词条数从 1605136 下降到 1549413(5 万左右的重复词条)
坏消息:楼主还是没有基于品词穷举变形
好消息:v2 主要就是解决这个问题的
皮一下,大家别打我:)
虽然楼主真的只是新建了文件夹,但还是完成了比较重要一步——提取出大辞泉【202110 数据】_20220423 - 日语 - FreeMdict Forum里面的单词(包含品词),有兴趣的同学可以看看
技术细节
词条标记
注:经过几天的尝试放弃以下尝试
- [x] 融合多本词典的数据(没有标注词性的话,手动穷举较为麻烦)
- [x] 「日本語国語辞典」(本论坛下载)
- [x] 「実用日本語表現辞典」(本论坛下载)
- [x] 还没有收录到权威词典的新词(这个会集中整理在本项目中的一个 txt 文件中)
- [x] ……欢迎大家补充那些词条比较完整的词典
MOJi
- 词性分类混乱,包括但不限于:三类、一段 2 种方式混用、重复描述等等
- 音调直接写在词条上,而且部分单词没有音调,不能简单地一口气直接删掉
日本国语大词典
【】内不含假名,得根据以下例子推出规律,然后就可以批量替换
と‐・す 【賭】
たいくつ‐が・る 【退屈─】 退屈がる
そり‐こく・る 【剃─】 剃こくる
たか‐ぶ・る【高─・昂】品词 高ぶる
たか‐ぶ・る高 高ぶる
あい‐くろし・い 【愛─】 愛くろしい
あい‐ぐ・す 【相具】 相具す
あが・る【上・揚・挙・騰】上る、揚る、挙る、騰る
そり‐かえ・る 【反返】 反返る
经过一番尝试,答主放弃了……只能正确拆分部分词条,相关代码在github,也可以在下载链接其他
文件夹找到部分文件动手试试
https://wwp.lanzoue.com/b011vyvcb 密码:8nte
https://cloud.freemdict.com/index.php/s/mCt38fb6jL5RPbQ
整体思路与「日本語非辞書形辞典」没有多大区别,再加上项目的代码已经该开源在 Github,对具体实现有兴趣的话,可以直接去读源代码。
致谢
非常感谢amob和cinnamon,没有这 2 位网友在 v1 版本期间的讨论与建议,就不会有 v2 版本。
也非常感谢okayer、grn25398、First_Last、dax、naisme、Fince等网友的反馈和鼓励,让楼主坚持做鸽到现在。
许可证
本项目制作的 mdx 文件使用署名 4.0 国际 (CC BY 4.0)协议共享。,相关代码使用 Apache License, Version 2.0 进行许可