真·哪里不会点哪里——日本語非辞書形辞典_v2

好消息:日本語非辞書形辞典_v2真的来啦。

关于这本词典作用及用法请参考v1算法细节

另外,基于纯算法的日本語非辞書形辞典_v3版本已经发布在论坛了,由于不是以mdx格式的词典的形式,v3版本可以调用EBWin、沙拉查词等软件,但目前存在一定的上手难度,有兴趣、愿意尝试的可以戳这篇文档v3_For_Quicker_Demo · 语雀 (yuque.com)

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

2022-07-30

  1. 补充来自《三省堂スーパー大辞林3.0》的词条

欢迎补充反馈:)

待办

  • [ ] 按照品词标签进行分类,并会从语法角度检查生成非辞書形是否正确
    • [ ] 活用
      • [x] 下一段活用上一段活用:与v1版本有非常大的区别,具体参考[一段动词查询优化](## 一段动词查询优化)部分
      • [ ] 考虑到食べ終わる这样真的去掉了词尾的存在,一段动词支持不划到词尾假名的位置
      • [x] 五段活用、抄vv1部分的代码就可以
      • [x] サ行変格活用:v1版本认为
      • [x] カ行変格活用:手动补充
      • [x] 形容詞
        • [x] 高そうだ
        • [x] 凄すぎる
        • [ ] 欢迎补充其他替换了词尾的形式
      • [ ] 其他变化
        • [x] 行っ
  • [ ] v1版本的尝试
    • [ ] 词组查询优化(は、が、を、も)
    • [ ] 复合动词(这个还是没有头绪只能慢慢收集、修改了)
    • [ ] 简体汉字和日文汉字
  • [ ] 完善各类标记符号
    • [x] ,v1版本需要手动输入たびたび或者度度,但有了v2版本、看到度々就不用手打啦
    • [ ] /\/″\青空文库上常见的格式
    • [ ] 和上面基本是一样的,但是区分了浊音
      • [ ] こう云って清吉は、しげ/\と娘の姿を見守った。
      • [ ] 彼は今始めて女の妙相をしみ/″\味わう事が出来た。
    • [ ]
      • [ ] v2版本不打算解决这个问题
      • [ ] 清吉と云う若い刺青師の腕きゝがあった。
      • [ ] その刺青こそは彼の生命のすべてゞあった
  • [ ] 支持查阅古语变形

下面不涉及太多技术细节,但却是v2版本最关键的改进,希望大家有耐心读一下,能指出遗漏之处就太好了。

可以到v2算法细节阅读原文(文章结构更清晰)

大致思路

主要是结合活用,做法大体上和v1版本保持了一致:仍然是批量换词尾假名。

这里只列举与v1版本差别较大的地方。

サ変

する・ずる

注意,这里想讨论的不是散歩する这样词形未发生变化的单词。

而是サ行変格活用这个页面里谈到的,只有一个汉字词(比如発する)以及浊化为了ずる(比如準ずる)的单词,以下面这句话为例进行说明:
待遇は正会員に準じて手当てをする
词尾部分被替换为,所以也需要单独处理。

但是这类单词之前没有专门思考过,所以下面的处理方法可能存在比较大的问题。

然后是我个人研究出的结论:
する需要被至少需要被替换为:



すれ
しろせよ

ずる需要被至少需要被替换为


ずれ
じれ
じろ
じよ
ぜよ
但问题是需要被替换为么?我在サ行変格活用没有找到这样的表述。

す・ず

看了下这类单词,似乎是古语里面用得比较多,而且这里也没有说明古语的变形,所以暂时只处理为,如果有这类动词的例句欢迎补充。

一段动词查询优化

先说结论:

下一段动词的词尾(至少)需要替换为ろ、よ、な、ま、た、れ、て、ら、さ、ず、ぬ、(中顿形,没有手滑233)、ちゃ・ち、ん、と

下面是实例:

なー晩ご飯を食べながテレビを見る晩ご飯を食べない
まー晩ご飯を食べます
たー晩ご飯を食べた
れー晩ご飯を食べれば、
てー晩ご飯を食べてからタバコを吸う
らー晩ご飯を食べられる人は幸せだな
、ー晩ご飯を食べ、
さー晩ご飯を食べさせる
ずー晩ご飯を食べず
ぬー晩ご飯を食べぬ
んーまだ子供にすぎん
とーご飯を食べとくしてください,口语ておく
ちゃ・ちー食べちゃう计算机系统上,ちゃ是由ち和ゃ组成,但考虑到划词可能不会那么准,故同时支持2种
……
(欢迎大家补充,为增强说服力,最好以词组的形式)

接下来是为什们要这样做的原因:

与v1一样,本项目的核心的逻辑还是穷举出所有非辞书形,但v2版本是真正试图穷举一个动词的词尾假名有多少种变化——不管是哪种动词,来る也不例外。

v1版本中,下一段动词的所有变形都以去掉了词尾的方法来处理。

晩ご飯は食べたが、……这句话为例,v1版本中需要划食べ查询(即按照部分语法书说的,下一段动词的变形可以理解为去掉了词尾假名)

但这种做法一定程度上加大了使用难度,同时也导致了穷举结果的混乱(v1版本的部分词条出现一大堆结果就是这个原因)

最后,v2版本计划支持日语古语。

考虑到很多动词的现代日语形式和古语之间的联系比较紧密,如果继续采用v1版本偷懒的做法,可能会遇到比较严重的词条重复问题。

致谢

非常感谢amobcinnamon,没有这2位网友在v1版本期间的讨论与建议,就不会有v2版本。

也非常感谢okayergrn25398First_LastdaxnaismeFince等网友的反馈和鼓励,让楼主坚持做到现在。

更新历史

2022-07-26

  1. 删除部分无法跳转的词条,比如:湧き上(が)る

2022-07-22

  1. 补充一段动词词尾变形:ん、と、ち、ちゃ
  2. 补充形容词尾变形:す
  3. 补充假名可以灵活书写的单词以及相关变形:当たる・当る/素晴らしい・素晴しい等等
  4. 修复\n处理的逻辑,防止遗漏文件的最后一个词条

2022-07-18

  1. 基于品词穷举,基本覆盖现代日语中的四大类动词
  2. 彻底解决v1版本中输入「辞書形」时结果混乱冗余的问题,现在是真·非辞書形辞典啦,而且现在只有1M多
  3. 手动补充不规律的变形
    1. 补充形容词的词尾变换:高そうだ
    2. サ変:準ずる、愛する这类比较特殊的サ変动词,遇到的问题比较大,具体细节在[## サ変](## サ変)
    3. 来る、行く

2022-07-14

好消息:「日本語非辞書辞書」v2要来啦
坏消息:楼主只是新建了日本語非辞書形辞典_v2文件夹
好消息:楼主更新了「日本語非辞書形辞典」——删了一大堆重复词条(比如マス),词条数从1605136下降到1549413(5万左右的重复词条)
坏消息:楼主还是没有基于品词穷举变形
好消息:v2主要就是解决这个问题的

皮一下,大家别打我:)

虽然楼主真的只是新建了文件夹,但还是完成了比较重要一步——提取出大辞泉【202110数据】_20220423 - 日语 - FreeMdict Forum里面的单词(包含品词),有兴趣的同学可以看看

技术细节

词条标记

注:经过几天的尝试放弃以下尝试

  • [x] 融合多本词典的数据(没有标注词性的话,手动穷举较为麻烦)
    • [x] 「日本語国語辞典」(本论坛下载)
    • [x] 「実用日本語表現辞典」(本论坛下载)
    • [x] 还没有收录到权威词典的新词(这个会集中整理在本项目中的一个txt文件中)
    • [x] ……欢迎大家补充那些词条比较完整的词典

MOJi

  1. 词性分类混乱,包括但不限于:三类、一段2种方式混用、重复描述等等
  2. 音调直接写在词条上,而且部分单词没有音调,不能简单地一口气直接删掉

日本国语大词典

【】内不含假名,得根据以下例子推出规律,然后就可以批量替换

と‐・す 【賭】
たいくつ‐が・る 【退屈─】  退屈がる  
そり‐こく・る 【剃─】  剃こくる  
たか‐ぶ・る【高─・昂】品词  高ぶる  
たか‐ぶ・る高  高ぶる  
あい‐くろし・い 【愛─】  愛くろしい  
あい‐ぐ・す 【相具】  相具す  
あが・る【上・揚・挙・騰】上る、揚る、挙る、騰る
そり‐かえ・る 【反返】  反返る

经过一番尝试,答主放弃了……只能正确拆分部分词条,相关代码在github,也可以在下载链接其他文件夹找到部分文件动手试试
https://wwp.lanzoue.com/b011vyvcb 密码:8nte
https://cloud.freemdict.com/index.php/s/mCt38fb6jL5RPbQ

整体思路与「日本語非辞書形辞典」没有多大区别,再加上项目的代码已经该开源在Github,对具体实现有兴趣的话,可以直接去读源代码。
NoHeartPen/JapaneseConjugation: This project is used for enumerating Japanese Conjugation. (github.com)

(怎么有种图穷匕见的感觉233,好吧,我就是来骗各位的Star的,怎么了嘛≧▽≦)

14 Likes

期待 :heart_eyes_cat:又一力作。

1 Like

请问这个excel文件是怎么用呢

1 Like

辞书形是不是都是基本形?

看取る → 看取る
看取ら → 看取る
看取ん → 看取る
看取ろ → 看取る
看取り → 看取る

進む → 進む
進ま → 進む
進も → 進む
進み → 進む
進ん → 進む
進め → 進む
進みゃ → 進む

1 Like

这个Excel只是存储单词和单词的词性,到最终的mdx词典文件还有很长的路要走。

分享出来只是想到这个东西对于研究日语词汇的人/想分类记单词的人可能会有点用。

比如,哪些汉语词汇能当作サ変動詞来使用?哪些汉语词汇后面该接な或者の?对于这2个问题,这个Excel都可以查到。

如果你是指如何通过Excel做出最终的词典的话,参考 日本語非辞書形辞典_v1的技术细节部分。

1 Like

从语法角度来说的话,我认为应该是的吧(我语法学得不好233)

但这本词典的「辞书形」这个概念的范围要稍微要广一点——因为我不是从语法角度出发,而是以实际生活中日语的书写形式和权威词典之间的差异来划分的。

比如,沸きたつ、沸き立つ、わきたつ——后2个是「辞书形」,第一个就不是,但实际生活中第一种写法更常见一点,但我到现在都没有见过谁家的词典收录了第一个的(MOJi的精准搜词不算哈)。

1 Like

您对“辞書形”的概念理解有误。辞書形严格来说应称为終止形,是日语中六大活用形式最基本的形式,故也称基本形。日语中用言、助动词的六种活用形式各自都有不同的语尾假名变化规则,而日语词典收录时均只收录终止形,故也叫做辞書形。至于沸きたつ、沸き立つ、わきたつ的写法区别,仅仅只在于是否将假名训释为特定的汉字,其活用形式均无区别,仍然是终止形。

(将多少假名训释为汉字没有硬性标准,这取决于你认识多少汉字、懂得多少汉字的训读,以及你对读者汉字认读能力的期望)

2 Likes

学到了 :blush:
看来我给这个项目起「日本語非辞書形辞典」有点挂羊头卖狗肉的嫌疑了233

只建了文件夹。。。。
╮(╯▽╰)╭

这不就来了嘛:)

2022-07-18

  1. 基于品词穷举,基本覆盖现代日语中的四大类动词
  2. 彻底解决v1版本中输入「辞書形」时结果混乱冗余的问题,现在是真·非辞書形辞典啦
  3. 手动补充不规律的变形
    1. 补充形容词的词尾变换:高そうだ
    2. サ変:準ずる、愛する这类比较特殊的サ変动词,遇到的问题比较大,具体细节在[## サ変](## サ変)
    3. 来る、行く

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

没有上传错,只有1M多,为此楼主专门花了半天时间检查:)

2 Likes

请问v1 20多M的版本是不是可以删除了?

是的,v1版本今后也不会维护了,所以可以直接删掉了

好奇从v1到v2体积怎么会小这么多呢

主要是以下几个方面:

  1. v2版本是从词性出发,v1只是根据词尾假名来判断有无处理的必要,像【あおじる】只有一个名词‘青汁’与之对应,并不需要像动词一样,替换词尾

  2. v2版本写了个脚本,用于制作mdx前,删除完全一样的词条,v1版本的マス就是重复词条最严重代表。得益于这个脚本,v2版本每次修改后不用小心翼翼地判断哪些部分是需要替换的(不然就相当于重复添加词条)

  3. v1版本对跳转语法进行了大量尝试,一开始注意到在输入框输入食べる/たべる/たべる【食べる】的结果是一样。这是因为大辞泉把意思全都放在了たべる【食べる】里面,输入食べる/たべる会自动跳到たべる【食べる】,但是这里使用的跳转语法@@@=只能跳一次,而且这一次必须要由词典软件的输入框发起,词典内部是不支持这种方法跳转的,后来没有删干净这部分尝试的词条
    图片

  4. <a href="bword://たべる【食べる】">这是尝试的第二种跳转语法,这个语法虽然能实现点击跳转,但也只能跳转一次,所以只能指向たべる【食べる】这样真正有意思的词条,不然跳转到食べる也是空白(后面也没有删干净)

  5. 最后采用的跳转语法是 <a href="entry://食べる#description">食べる</a></section></>,但一开始以为要能点击后自动跳转到<a href="entry://后面的食べる,那么一定要存在一个叫做食べる的词条,所以v1版本查原型能查到可以跳转的词条。但v2版本重新测试时才发现不需要,所以v2版本查原型或者跳转到原型,是看不到日本語非辞書形辞書的

综上,v1版本由于不熟悉mdx格式词典的语法,再加上制作流程混乱,导致一些尝试性添加的词条在发现无效后没有删除,做好之后,使用了一段时间意识到这些问题后,又投鼠忌器彻底摆烂

而v2版本吸取了教训,从0开始,只添加v1发现的真正有效的部分,所以体积下降了许多:)

2 Likes

2022-07-22 更新说明

  1. 补充一段动词词尾变形:ん、と、ち、ちゃ
  2. 补充形容词尾变形:す
  3. 补充假名可以灵活书写的单词以及相关变形:当たる・当る/素晴らしい・素晴しい等等
  4. 修复\n处理的逻辑,防止遗漏文件的最后一个词条

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8

1 Like

谢谢分享
期待继续完善~

2022-07-26-更新说明

  1. 删除部分无法跳转的词条,比如:湧き上(が)る
  2. 另外,基于纯算法的日本語非辞書形辞典_v3版本已经发布在论坛了,由于不是以mdx格式的词典的形式,v3版本可以调用EBWin、沙拉查词等软件,但目前存在一定的上手难度,有兴趣、愿意尝试的可以戳这篇文档v3_For_Quicker_Demo · 语雀 (yuque.com)

另外,想请教大家一个问题:像这个地方讨论的东西https://forum.freemdict.com/t/topic/14171/2有必要用暴力穷举的方法来一遍吗(或者说只有几个固定的,没有必要把1213个形容词都这么搞一遍,也没有必要在v3版本中用代码处理类似的变化)

大家可以用回应来进行投票:)

1 Like

2022-07-30 更新说明

  1. 补充来自《三省堂スーパー大辞林3.0》的词条

按照计划这个应在上周六(7月30号)更新,将会融合MOJi、日本国语大辞典等有词性的词典,但是他们的标记方式实在太难处理了,折腾了几天楼主选择放弃,感兴趣的同学可以在技术细节部分阅读处理过程遇到的问题:)。

另外, v3_For_Quicker_Demo同步更新,除了新增词条之外,还支持返回多个结果,同时返回结果与v2基本一致

下载

论坛网盘:https://cloud.freemdict.com/index.php/s/Q62m2gk2dT5Lm99 30

蓝奏云:https://wwp.lanzouf.com/b011tnz6b 密码:8yp8