真·哪里不会点哪里_日本語非辞書形辞典_v2

注:本文发布在如下平台:
Github
Gitee
FreeMdict论坛
[PDAWIKI]
语雀

好消息:日本語非辞書形辞典_v2 真的来啦。

关于这本词典作用及用法请参考v1 算法细节,简单来说,这个辞典的作用是让你可以用最短的时间查到一个单词——有“复制”和“粘贴”这2个强大的工具在,我们为什么还要自己慢慢地打字呢?

因为日语在实际使用时,会出现词典不会收录的「非辞書形」:
活用(食べられない)、复合动词的异形词(沸きたつ、わき立つ)、专门用片假名书写的单词(チョコチョコ、クマ)
另外,在阅读翻译成日语的中文材料时,其中的人名、地名等往往会处理处理成中文简体字,比如紀貫之→纪贯之,澤野弘之→泽野弘之……还有部分サ変動詞,比如“競争”能猜出来是“竞争”,但直接输入“竞争”,在EBWin和《大辞泉》等日日词典上是看不到结果的。

针对以上问题,本项目提供的mdx文件都可以解决,实现最丝滑的查词体验:

|500
(词典软件:GoldenDict)

词典软件:欧路词典

另外,基于纯代码的日本語非辞書形辞典_v3 版本已经开始测试了,由于不是以 mdx 格式的词典的形式,v3 版本可以调用 EBWin、沙拉查词等软件,但目前存在一定的上手难度,有兴趣、愿意尝试的可以戳这篇文档v3_For_Quicker_Demo · 语雀 (yuque.com)

下载

2023-01-21

  1. 为了更好地支持日语【异形词】,重构了项目使用的索引
    1. 尝试支持自定义索引,如果你认为更新后的跳转链接过多或者发现太多跳转链接是无效的,可以删除v2\index\index.txt里的词条,将自己手上词典词条导入其中,运行v2\main.py打包即可
    2. 重构索引的原则:优先以单词的读音作为【辞書形】,作为第一个跳转链接;词典收录的单词汉字书写不太统一,统一发布的版本考虑到兼容,会以本人能收集到的所有词典作为单词汉字书写的标准,力求收录所有【非辞書形】和【辞書形】
    3. 这个优化是【日本語非辞書形辞典_idx_KOReader_特供版】、【日本語非辞書形辞典_txt_AnkiHelper_特供版】和【日本語非辞書形辞典_mobi_kindle_特供版】等v2版本【mdx2all】子项目的前瞻测试,相关文件夹已新建完毕,敬请期待233
  2. 整理形態素解析辞典 IPAdic、JUMAN、UniDic的数据,新增40万词条(以名词的异形词和形容词的口语约音为主)(604458->1004008)

最后,向IPAdic、JUMAN、UniDic的制作人员和研究机构说一句发自内心的“ありがとうございます!”,没有你们的付出就没有这次的更新:)

最先更新:

GitHub(如在非 GitHub 页面请勿使用这种方法):
release_pub (网速问题自行解决)

Gitee(如在非 Gitee 页面请勿使用这种方法):
release_pub (须登录才可下载)

以下平台为本人手动上传存在一定的延迟:

FreeMdict论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

123网盘: 日本語非辞書形辞典_ - 123云盘

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

下载的文件需要导入欧路词典、GoldenDict 等才可使用,具体导入方法可以参考GoldenDict 的下载、安装、使用

另外,导入成功后打开软件的剪贴板查词功能(其他软件请自行百度):

  • Goldendict(Win):编辑-首选项-热键-使用下列热键翻译剪贴板中的单词,按自己习惯设置快捷键即可

待办

  • [ ] 按照品词标签进行分类,并会从语法角度检查生成非辞書形是否正确
    • [ ] 活用
      • [x] 下一段活用上一段活用:与 v1 版本有非常大的区别,具体参考[一段动词查询优化](## 一段动词查询优化)部分
      • [x] 考虑到食べ終わる这样真的去掉了词尾的存在,一段动词支持不划到词尾假名的位置
      • [x] 五段活用、抄 vv1 部分的代码就可以
      • [x] サ行変格活用:v1 版本认为
      • [x] カ行変格活用:手动补充
      • [x] 形容詞
        • [x] 高そうだ
        • [x] 凄すぎる
        • [ ] 欢迎补充其他替换了词尾的形式
      • [ ] 其他变化
        • [x] 行っ
  • [ ] v1 版本的尝试
    • [ ] 词组查询优化(は、が、を、も)
    • [x] 复合动词(这个还是没有头绪只能慢慢收集、修改了)
      • [ ] 数据来自
    • [ ] 简体汉字和日文汉字
  • [ ] 完善各类标记符号
    • [x] ,v1 版本需要手动输入たびたび或者度度,但有了 v2 版本、看到度々就不用手打啦
    • [ ] /\/″\青空文库上常见的格式
    • [ ] 和上面基本是一样的,但是区分了浊音
      • [ ] こう云って清吉は、しげ/\と娘の姿を見守った。
      • [ ] 彼は今始めて女の妙相をしみ/″`味わう事が出来た。`
    • [ ]
      • [ ] v2 版本不打算解决这个问题
      • [ ] 清吉と云う若い刺青師の``腕きゝ``があった。
      • [ ] その刺青こそは彼の生命のすべてゞあった
  • [ ] 支持查阅古语变形

下面不涉及太多技术细节,但却是 v2 版本最关键的改进,希望大家有耐心读一下,能指出遗漏之处就太好了。

可以到v2 算法细节阅读原文(文章结构更清晰)

大致思路

主要是结合活用,做法大体上和v1 版本保持了一致:仍然是批量换词尾假名。

这里只列举与v1 版本差别较大的地方。

サ変

する・ずる

注意,这里想讨论的不是散歩する这样词形未发生变化的单词。

而是サ行変格活用这个页面里谈到的,只有一个汉字词(比如発する)以及浊化为了ずる(比如準ずる)的单词,以下面这句话为例进行说明:
待遇は正会員に準じて手当てをする
词尾部分被替换为,所以也需要单独处理。

但是这类单词之前没有专门思考过,所以下面的处理方法可能存在比较大的问题。

然后是我个人研究出的结论:
する需要被至少需要被替换为:
すれしろせよ

ずる需要被至少需要被替换为
ずれじれじろじよぜよ
但问题是需要被替换为么?在サ行変格活用没有找到这样的表述。

す・ず

这类单词似乎是古语里面用得比较多,而且原网页也没有说明古语的变形,所以暂时只处理为,如果有这类动词的例句欢迎补充。

一段动词查询优化

先说结论:

下一段动词的词尾(至少)需要替换为ろ、よ、な、ま、た、れ、て、ら、さ、ず、ぬ、(中顿形,没有手滑 233)、ちゃ・ち、ん、と

下面是实例:

なー晩ご飯を食べながテレビを見る晩ご飯を食べない
まー晩ご飯を食べます
たー晩ご飯を食べた
れー晩ご飯を食べれば、
てー晩ご飯を食べてからタバコを吸う
らー晩ご飯を食べられる人は幸せだな
、ー晩ご飯を食べ、
さー晩ご飯を食べさせる
ずー晩ご飯を食べず
ぬー晩ご飯を食べぬ
んーまだ子供にすぎん
とーご飯を食べとくしてください,口语ておく
ちゃ・ちー食べちゃう计算机系统上,ちゃ是由ち和ゃ组成,但考虑到划词可能不会那么准,故同时支持 2 种
……
(欢迎大家补充,为增强说服力,最好以词组的形式)

接下来是为什们要这样做的原因:

与 v1 一样,本项目的核心的逻辑还是穷举出所有非辞书形,但 v2 版本是真正试图穷举一个动词的词尾假名有多少种变化——不管是哪种动词,来る也不例外。

v1 版本中,下一段动词的所有变形都以去掉了词尾的方法来处理。

晩ご飯は食べたが、……这句话为例,v1 版本中需要划食べ查询(即按照部分语法书说的,下一段动词的变形可以理解为去掉了词尾假名)

但这种做法一定程度上加大了使用难度,同时也导致了穷举结果的混乱(v1 版本的部分词条出现一大堆结果就是这个原因)

最后,v2 版本计划支持日语古语。

考虑到很多动词的现代日语形式和古语之间的联系比较紧密,如果继续采用 v1 版本偷懒的做法,可能会遇到比较严重的词条重复问题。

更新历史

2022-10-30

  1. 整理日国研提供的複合動詞レキシコン数据,新增复合动词的异形词非辞書形近10万条(468443→604458):
    1. 一段复合动词常见前项342个,常见后项127个
    2. 五段复合动词常见前项485个,常见后项270个
    3. 有兴趣了解上述常见前项和后项,可以到论坛网盘的其他-复合动词常见前后项文件夹下载
  2. 优化自动打包流程,清理重复词条1448项

2022-10-16

  1. 补充大量平假名词条(即不限于拟声拟态词)
  2. 支持沸きたつわき立つ等异形词及其活用,提供沸き立つわきたつ2种跳转链接
    1. 使用日国研提供的複合動詞レキシコン数据,共计2759个动词(其中五段复合动词1821个,一段复合动词936个,还有2个数え切れない煮え切らない一般以惯用表达的形式出现,且不以动词规律活用已剔除),如果有补充的话,欢迎到项目的地址提交issue,或者通过 [email protected]
  3. 重构项目代码,自动化打包流程
  4. 新增对一段动词的使役态口语约音食べせる的支持,划食べせ可以提供跳转链接
  5. 删除品词分类错误的动词伏せる

2022-07-30

  1. 补充来自《三省堂スーパー大辞林 3.0》的词条

欢迎补充反馈:)

2022-07-26

  1. 删除部分无法跳转的词条,比如:湧き上(が)る

2022-07-22

  1. 补充一段动词词尾变形:ん、と、ち、ちゃ
  2. 补充形容词尾变形:す
  3. 补充假名可以灵活书写的单词以及相关变形:当たる・当る/素晴らしい・素晴しい等等
  4. 修复\n处理的逻辑,防止遗漏文件的最后一个词条

2022-07-18

  1. 基于品词穷举,基本覆盖现代日语中的四大类动词
  2. 彻底解决 v1 版本中输入「辞書形」时结果混乱冗余的问题,现在是真·非辞書形辞典啦,而且现在只有 1M 多
  3. 手动补充不规律的变形
    1. 补充形容词的词尾变换:高そうだ
    2. サ変:準ずる、愛する这类比较特殊的サ変动词,遇到的问题比较大,具体细节在[## サ変](## サ変)
    3. 来る、行く

2022-07-14

好消息:「日本語非辞書辞書」v2 要来啦
坏消息:楼主只是新建了日本語非辞書形辞典_v2文件夹
好消息:楼主更新了「日本語非辞書形辞典」——删了一大堆重复词条(比如マス),词条数从 1605136 下降到 1549413(5 万左右的重复词条)
坏消息:楼主还是没有基于品词穷举变形
好消息:v2 主要就是解决这个问题的

皮一下,大家别打我:)

虽然楼主真的只是新建了文件夹,但还是完成了比较重要一步——提取出大辞泉【202110 数据】_20220423 - 日语 - FreeMdict Forum里面的单词(包含品词),有兴趣的同学可以看看

技术细节

词条标记

注:经过几天的尝试放弃以下尝试

  • [x] 融合多本词典的数据(没有标注词性的话,手动穷举较为麻烦)
    • [x] 「日本語国語辞典」(本论坛下载)
    • [x] 「実用日本語表現辞典」(本论坛下载)
    • [x] 还没有收录到权威词典的新词(这个会集中整理在本项目中的一个 txt 文件中)
    • [x] ……欢迎大家补充那些词条比较完整的词典

MOJi

  1. 词性分类混乱,包括但不限于:三类、一段 2 种方式混用、重复描述等等
  2. 音调直接写在词条上,而且部分单词没有音调,不能简单地一口气直接删掉

日本国语大词典

【】内不含假名,得根据以下例子推出规律,然后就可以批量替换

と‐・す 【賭】
たいくつ‐が・る 【退屈─】  退屈がる  
そり‐こく・る 【剃─】  剃こくる  
たか‐ぶ・る【高─・昂】品词  高ぶる  
たか‐ぶ・る高  高ぶる  
あい‐くろし・い 【愛─】  愛くろしい  
あい‐ぐ・す 【相具】  相具す  
あが・る【上・揚・挙・騰】上る、揚る、挙る、騰る
そり‐かえ・る 【反返】  反返る

经过一番尝试,答主放弃了……只能正确拆分部分词条,相关代码在github,也可以在下载链接其他文件夹找到部分文件动手试试
https://wwp.lanzoue.com/b011vyvcb 密码:8nte
https://cloud.freemdict.com/index.php/s/mCt38fb6jL5RPbQ

整体思路与「日本語非辞書形辞典」没有多大区别,再加上项目的代码已经该开源在 Github,对具体实现有兴趣的话,可以直接去读源代码。

致谢

非常感谢amobcinnamon,没有这 2 位网友在 v1 版本期间的讨论与建议,就不会有 v2 版本。

也非常感谢okayergrn25398First_LastdaxnaismeFince等网友的反馈和鼓励,让楼主坚持做到现在。

许可证

本项目制作的 mdx 文件使用署名 4.0 国际 (CC BY 4.0)协议共享。,相关代码使用 Apache License, Version 2.0 进行许可

25 个赞

期待 :heart_eyes_cat:又一力作。

2 个赞

请问这个excel文件是怎么用呢

1 个赞

辞书形是不是都是基本形?

看取る → 看取る
看取ら → 看取る
看取ん → 看取る
看取ろ → 看取る
看取り → 看取る

進む → 進む
進ま → 進む
進も → 進む
進み → 進む
進ん → 進む
進め → 進む
進みゃ → 進む

1 个赞

这个Excel只是存储单词和单词的词性,到最终的mdx词典文件还有很长的路要走。

分享出来只是想到这个东西对于研究日语词汇的人/想分类记单词的人可能会有点用。

比如,哪些汉语词汇能当作サ変動詞来使用?哪些汉语词汇后面该接な或者の?对于这2个问题,这个Excel都可以查到。

如果你是指如何通过Excel做出最终的词典的话,参考 日本語非辞書形辞典_v1的技术细节部分。

1 个赞

从语法角度来说的话,我认为应该是的吧(我语法学得不好233)

但这本词典的「辞书形」这个概念的范围要稍微要广一点——因为我不是从语法角度出发,而是以实际生活中日语的书写形式和权威词典之间的差异来划分的。

比如,沸きたつ、沸き立つ、わきたつ——后2个是「辞书形」,第一个就不是,但实际生活中第一种写法更常见一点,但我到现在都没有见过谁家的词典收录了第一个的(MOJi的精准搜词不算哈)。

1 个赞

您对“辞書形”的概念理解有误。辞書形严格来说应称为終止形,是日语中六大活用形式最基本的形式,故也称基本形。日语中用言、助动词的六种活用形式各自都有不同的语尾假名变化规则,而日语词典收录时均只收录终止形,故也叫做辞書形。至于沸きたつ、沸き立つ、わきたつ的写法区别,仅仅只在于是否将假名训释为特定的汉字,其活用形式均无区别,仍然是终止形。

(将多少假名训释为汉字没有硬性标准,这取决于你认识多少汉字、懂得多少汉字的训读,以及你对读者汉字认读能力的期望)

3 个赞

学到了 :blush:
看来我给这个项目起「日本語非辞書形辞典」有点挂羊头卖狗肉的嫌疑了233

1 个赞

只建了文件夹。。。。
╮(╯▽╰)╭

这不就来了嘛:)

2022-07-18

  1. 基于品词穷举,基本覆盖现代日语中的四大类动词
  2. 彻底解决v1版本中输入「辞書形」时结果混乱冗余的问题,现在是真·非辞書形辞典啦
  3. 手动补充不规律的变形
    1. 补充形容词的词尾变换:高そうだ
    2. サ変:準ずる、愛する这类比较特殊的サ変动词,遇到的问题比较大,具体细节在[## サ変](## サ変)
    3. 来る、行く

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

没有上传错,只有1M多,为此楼主专门花了半天时间检查:)

3 个赞

请问v1 20多M的版本是不是可以删除了?

是的,v1版本今后也不会维护了,所以可以直接删掉了

好奇从v1到v2体积怎么会小这么多呢

主要是以下几个方面:

  1. v2版本是从词性出发,v1只是根据词尾假名来判断有无处理的必要,像【あおじる】只有一个名词‘青汁’与之对应,并不需要像动词一样,替换词尾

  2. v2版本写了个脚本,用于制作mdx前,删除完全一样的词条,v1版本的マス就是重复词条最严重代表。得益于这个脚本,v2版本每次修改后不用小心翼翼地判断哪些部分是需要替换的(不然就相当于重复添加词条)

  3. v1版本对跳转语法进行了大量尝试,一开始注意到在输入框输入食べる/たべる/たべる【食べる】的结果是一样。这是因为大辞泉把意思全都放在了たべる【食べる】里面,输入食べる/たべる会自动跳到たべる【食べる】,但是这里使用的跳转语法@@@=只能跳一次,而且这一次必须要由词典软件的输入框发起,词典内部是不支持这种方法跳转的,后来没有删干净这部分尝试的词条
    图片

  4. <a href="bword://たべる【食べる】">这是尝试的第二种跳转语法,这个语法虽然能实现点击跳转,但也只能跳转一次,所以只能指向たべる【食べる】这样真正有意思的词条,不然跳转到食べる也是空白(后面也没有删干净)

  5. 最后采用的跳转语法是 <a href="entry://食べる#description">食べる</a></section></>,但一开始以为要能点击后自动跳转到<a href="entry://后面的食べる,那么一定要存在一个叫做食べる的词条,所以v1版本查原型能查到可以跳转的词条。但v2版本重新测试时才发现不需要,所以v2版本查原型或者跳转到原型,是看不到日本語非辞書形辞書的

综上,v1版本由于不熟悉mdx格式词典的语法,再加上制作流程混乱,导致一些尝试性添加的词条在发现无效后没有删除,做好之后,使用了一段时间意识到这些问题后,又投鼠忌器彻底摆烂

而v2版本吸取了教训,从0开始,只添加v1发现的真正有效的部分,所以体积下降了许多:)

2 个赞

2022-07-22 更新说明

  1. 补充一段动词词尾变形:ん、と、ち、ちゃ
  2. 补充形容词尾变形:す
  3. 补充假名可以灵活书写的单词以及相关变形:当たる・当る/素晴らしい・素晴しい等等
  4. 修复\n处理的逻辑,防止遗漏文件的最后一个词条

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

1 个赞

谢谢分享
期待继续完善~

2022-07-26-更新说明

  1. 删除部分无法跳转的词条,比如:湧き上(が)る
  2. 另外,基于纯算法的日本語非辞書形辞典_v3版本已经发布在论坛了,由于不是以mdx格式的词典的形式,v3版本可以调用EBWin、沙拉查词等软件,但目前存在一定的上手难度,有兴趣、愿意尝试的可以戳这篇文档v3_For_Quicker_Demo · 语雀 (yuque.com)

另外,想请教大家一个问题:像这个地方讨论的东西https://forum.freemdict.com/t/topic/14171/2有必要用暴力穷举的方法来一遍吗(或者说只有几个固定的,没有必要把1213个形容词都这么搞一遍,也没有必要在v3版本中用代码处理类似的变化)

大家可以用回应来进行投票:)

1 个赞

2022-07-30 更新说明

  1. 补充来自《三省堂スーパー大辞林3.0》的词条

按照计划这个应在上周六(7月30号)更新,将会融合MOJi、日本国语大辞典等有词性的词典,但是他们的标记方式实在太难处理了,折腾了几天楼主选择放弃,感兴趣的同学可以在技术细节部分阅读处理过程遇到的问题:)。

另外, v3_For_Quicker_Demo同步更新,除了新增词条之外,还支持返回多个结果,同时返回结果与v2基本一致

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

2022-10-15更新说明

很早就注意到的简体字和日语汉字的问题终于有了一个初步的解决方案,考虑到每个人的使用习惯和维护成本,单独发布成一个新项目

另外,针对日语复合动词的书写问题,最近也找到了一个初步的解决方法,预计下周更新,敬请期待:)

如果对项目的最新进展感兴趣的话,可以通过GitHub的Watch功能用邮件订阅项目的动态

3 个赞

:laughing:,我就不低头,
输入法有手写输入法吧(?居然没有)

居然发现了儿时学过十多年毛笔字的益处了,
我对字形都能记忆个七七八八!
去物书堂里写完看看是对的:crazy_face: