
goo辞書
FreeMdict Cloud - A FreeMdict Storage
上面的词典,社区都有吗?
好多没有,完全可以全站爬取。hua大要爬吗
这个网站的辞典质量都挺高的,不是特别弱于物树堂,价值上来讲值得爬,期待大佬出手。
爬取结束了,我将原始数据放在下面,请自由取用,请不要为之后可能的分发设置任何门槛。自用不分发请去展示分区。
我不打算做成 mdx ,有兴趣者自行打包。
在这一场猫和老鼠的游戏中,我又当了一次老鼠。
All credits to https://dictionary.goo.ne.jp/
一共 12 部辞書,每部的所有数据都在一个压缩包里。压缩包采用 ZSTD 算法,Windows 可用 7-Zip 解压,Linux 可用 tar --zstd
解压。
压缩包文件名 | 辞書 |
---|---|
data_cej.tar.zst | goo時事英語辞典 |
data_clj.tar.zst | gooコロケーション辞典 |
data_dialect.tar.zst | 全国方言辞典 |
data_ej.tar.zst | プログレッシブ英和中辞典 |
data_gthmal.tar.zst | 地熱発電用語集 |
data_idiom.tar.zst | 新明解四字熟語辞典 / 学研四字熟語辞典 |
data_je.tar.zst | プログレッシブ和英中辞典 |
data_jn.tar.zst | デジタル大辞泉 |
data_kanji.tar.zst | 漢字ペディア |
data_medical.tar.zst | からだと病気のしくみ図鑑 |
data_person.tar.zst | デジタル大辞泉 |
data_thsrs.tar.zst | 類語例解辞典 |
以 data_kanji.tar.zst
为例:
data_kanji.txt
辞書的文本数据,一行是词条网址,下一行是词条 HTML,词头可从 HTML 中提取。data_kanji/
图片,如果有的话,我已经将图片放到文本数据中 HTML 指定的位置了。与纸书相比,缺了近2/3的内容。
这个也缺了些。
都是和纸书相比嘛?
和网站相比呢?
网站和您爬的数据一致,也缺。
能举一些缺的例子看看吗?
比如"内平外成",网站搜不到,数据也没有(我这里指的是新明解缺, 但学研那本有)。而且网站本身也有说明,并不是完整版。
“内平外成”是在学研的“四字熟語”里面
你能举例些整个网站都没有的词条吗,这样比较好参考些
(我估计goo把重复的词条删除了)
——“地平天成”反而两本都有(笑了)
得给自己说的话打补丁了:
上面说的时候只考虑到网站情况,因为相比于weblio和kotobank,goo确实量大,收了不少别处查不到的词,我才说有爬的价值,没去和纸书对比。
纸书
歓言愉色
意味:処世術のこと。人の喜びそうなお世辞を言い、愛想よく振る舞うこと。▽「歓言」は相手と楽しく語り合う意。「愉色」は楽しそうな顔つきのこと。
也没人说不是呀。
紙の本
紙の本
你好像没看懂我在说什么(你似乎把我的说的“纸书”理解成了词条),我说的纸书指的是『新明解四字熟語辞典』,词条为:歓言愉色。
今天花了点时间弄了个合集版本。
1 不懂日语,有错误请告知
2 css完全没有,有官网版本请分享 (内容append到qtdy.css即可)
链接: 百度网盘 请输入提取码
FreeMdict Cloud - A FreeMdict Storage
CSS 多半需要适配,官网的比较简洁:「摩」とは? 部首・画数・読み方・意味 - goo漢字辞典
官网的 CSS 应该是这个:https://dictionary.goo.ne.jp/mix/css/app_leaf.css
谢谢大神的佳作,大神要是能把里面的汉字跳转连接修复一下就更好了。