Kotobank网站的日语词典似乎没多少人爬过

这个网站,里面辞典部分大多是小学馆出品的,免费、可以查看所有词头、大部分词典保持最新版本。像现在mdx还处在第二版的小学馆日中/中日词典(epwing转换,第二版分别在02/03年出版),在kotobank里就是第三版;Digital大辞泉和纸书大辞泉不同,电子版每年都会更新,kotobank里也有今年6月9号更新的最新版本。还有目前还没有mdx的Digital大辞泉Plus(专门收录艺术作品、商品名称、人名等专有名词的词典)同样每年更新。
以下附上链接:

中日辞典第三版,共91644词头(kotobank词头均为正文词头),mdx第二版有80037正文词头+2474索引词头

日中辞典第三版,共66088词头,mdx第二版有70369正文词头+102209索引词头(不知道为啥缩水了)

デジタル大辞泉,共304000词头,mdx版总计872014词头,虽然不知道具体新增多少词头,但我试了下网页版最后一页(4343页)的所有词(60个),mdx版只能查出来一个。。

デジタル大辞泉プラス(Plus),共106664词头,没有mdx版,里面的词条实测其它词典几乎都没有。

诸如此类的还有非常多,不过做mdx的话有个问题是要把汉字词条正文标题里的假名部分和外来语词条标题里的原文部分(如 “プラス(plus)”里的plus)做成索引词条。不过大辞泉plus和中日词典不会有这个问题,前者不标,后者是中文不用标。

其它一些词典有人做过,比如O大19年做的知恵蔵

但知恵蔵本身是朝日新闻的新词合集,更新极快,19年这个版本有7641词条,而现在kotobank上已经有10122词条了。

再比如09年的小学馆日本大百科全书

日本大百科全书电子版每月更新,09年这个版本107742词条(来源不清楚,可能是lingos,但内容应该是纸质版的),kotobank上则有122737词条,不考虑原有内容的更改也是非常庞大的更新了。

不知道有没有大佬愿意出手 :flushed:

2 Likes

期待有大佬出手 :yum:

笑死~你去看本站github 甚至有一个kotobank auto crawler 不过可能有问题了

5 Likes

,,我甚至不知道本站有github​:joy::joy:

花大当时搞的程序应该还可以用,大部头的词典可能会被封ip……

刚才已经把知惠藏搞出来了,现在正在试大辞泉plus

1 Like

小学馆日中中日还是挺好的,虽然主要是给日本人看的但是足够权威,日版的卡西欧中文就带的这本(国行的日文版带的新世纪日汉双解和clown中日,这两本已有mdx)

2 Likes

clown中日的mdx好像没有呢……

1 Like

确实没有。。我把中日和日中记混了

1 Like

hua大,我直接用出来的数据打包似乎有点问题,我把出来的final_data.txt发上来您看看什么情况
知恵蔵.txt (17.2 MB)
旺文社日本史事典 三訂版.txt (4.5 MB)
デジタル大辞泉プラス.7z (5.5 MB)
(大辞泉文件比较大,压缩了一下)

2 Likes

程序得改才行,我最近没时间哈,那个韩语词典还是有点费精力的。

2 Likes

日中mdx网有流出过吗?好像没有人分享过这本日中呢!

クラウン日中辞典.zip (7.3 MB)
我也忘了什么地方搞到的了

4 Likes

atok 的大辞林4.0你这有吗?之前有人放过,我错过了。

网站经过一次改版后丢失了一些重要信息,比如历史假名等。上一次搞大辞泉还是在19年,那时数据是全的,现在如果还想抓这类国语辞典那就没什么必要。

至于那本百科全书,里面有大量的外字且图像不清晰(1202年还在用16x16的分辨率),光词头就有两千多个,实在分辨不出来,放弃

有的,5ch上每年都有人放最新版,但是旧版不管。

2 Likes

2021版,翻到第2页。

https://ux.getuploader.com/soft2/

所以只打算抓plus作为补充 :doge:
说起来改版之后丢失重要信息的还有这个语源由来辞典

hua大之前抓过,跟现在的版本比只少了几十个词,但是原来里面的近义词之类的功能都没了,现在再抓反而是倒退

补充一下,没了近义词功能似乎是因为这家另开了个网站:

但是词头不一致,恐怕不能替代

大辞林4.0在2020版里,2021版里面的是新明国8。

2 Likes

这个网页里只有到2019的,没有2020…