[词典讯] goo辞書終了

3 Likes

上面的词典,社区都有吗?

4 Likes

好多没有,完全可以全站爬取。hua大要爬吗 :smiley:

这个网站的辞典质量都挺高的,不是特别弱于物树堂,价值上来讲值得爬,期待大佬出手。

这四个应该是没抓取的里面最有价值的了

2 Likes

爬取结束了,我将原始数据放在下面,请自由取用,请不要为之后可能的分发设置任何门槛。自用不分发请去展示分区。

我不打算做成 mdx ,有兴趣者自行打包。

在这一场猫和老鼠的游戏中,我又当了一次老鼠。

All credits to https://dictionary.goo.ne.jp/

原始数据结构

文件

一共 12 部辞書,每部的所有数据都在一个压缩包里。压缩包采用 ZSTD 算法,Windows 可用 7-Zip 解压,Linux 可用 tar --zstd 解压。

压缩包文件名 辞書
data_cej.tar.zst goo時事英語辞典
data_clj.tar.zst gooコロケーション辞典
data_dialect.tar.zst 全国方言辞典
data_ej.tar.zst プログレッシブ英和中辞典
data_gthmal.tar.zst 地熱発電用語集
data_idiom.tar.zst 新明解四字熟語辞典 / 学研四字熟語辞典
data_je.tar.zst プログレッシブ和英中辞典
data_jn.tar.zst デジタル大辞泉
data_kanji.tar.zst 漢字ペディア
data_medical.tar.zst からだと病気のしくみ図鑑
data_person.tar.zst デジタル大辞泉
data_thsrs.tar.zst 類語例解辞典

文件结构

data_kanji.tar.zst 为例:

  • data_kanji.txt 辞書的文本数据,一行是词条网址,下一行是词条 HTML,词头可从 HTML 中提取。
  • data_kanji/ 图片,如果有的话,我已经将图片放到文本数据中 HTML 指定的位置了。

文件下载

15 Likes

与纸书相比,缺了近2/3的内容。

这个也缺了些。

1 Like

都是和纸书相比嘛?

和网站相比呢?

网站和您爬的数据一致,也缺。

能举一些缺的例子看看吗?

比如"内平外成",网站搜不到,数据也没有(我这里指的是新明解缺, 但学研那本有)。而且网站本身也有说明,并不是完整版。

2 Likes

“内平外成”是在学研的“四字熟語”里面

你能举例些整个网站都没有的词条吗,这样比较好参考些
(我估计goo把重复的词条删除了)
——“地平天成”反而两本都有(笑了)

得给自己说的话打补丁了:
上面说的时候只考虑到网站情况,因为相比于weblio和kotobank,goo确实量大,收了不少别处查不到的词,我才说有爬的价值,没去和纸书对比。

纸书

歓言愉色
意味:処世術のこと。人の喜びそうなお世辞を言い、愛想よく振る舞うこと。▽「歓言」は相手と楽しく語り合う意。「愉色」は楽しそうな顔つきのこと。

也没人说不是呀。

紙の本

你好像没看懂我在说什么(你似乎把我的说的“纸书”理解成了词条),我说的纸书指的是『新明解四字熟語辞典』,词条为:歓言愉色

今天花了点时间弄了个合集版本。
1 不懂日语,有错误请告知
2 css完全没有,有官网版本请分享 (内容append到qtdy.css即可)

MDict_fXXhA7LkqX

链接: 百度网盘 请输入提取码

6 Likes

CSS 多半需要适配,官网的比较简洁:「摩」とは? 部首・画数・読み方・意味 - goo漢字辞典

官网的 CSS 应该是这个:https://dictionary.goo.ne.jp/mix/css/app_leaf.css

1 Like

更新了mdx,mdd (主要是不显示nested tabs)
更新css用官网的
图像和有些跳转还是原来的relative path.

新样子

2 Likes

谢谢大神的佳作,大神要是能把里面的汉字跳转连接修复一下就更好了。