【爱知大学】中日大辞典第三版

昨天看到旧帖子 爱知大学中日大辞典第3版在线版网址分享 被顶上来了,就尝试抓取了一下。

因为这部辞典没有索引,所以只能按照逻辑遍历。单字1万+,复合词11万+,另加338条的「未収語」。其中不少的词目包含类推简化字,原始网站用图片显示,这类是无法直接搜索的。

最终索引词条数为131,060,明显和流传的14万、15万有差距,可能统计方式不一样导致,可能故意夸大(官方网站的词条最大ID为128298),也可能抓取时有部分遗漏。欢迎大家反馈。

jp0

jp1

19 Likes

好耶。

楼主你忘放下载链接了,直接传上来吧。

3 Likes

下载地址

链接: 百度网盘-链接不存在 提取码: weiq

本站:

中日大辞典v3.tar.gz (9.5 MB)

8 Likes

楼主怎么解决的反爬呢

1 Like

确实会被屏蔽。后来改成一次请求sleep 0.2就可以了。

2 Likes

我就在浏览器中操作,准备看看id结构,就被封了

哇哇哇,前两天我偶然看到帖子回了两句,这就把词典爬出来了:heart_eyes:

哇,谢谢大神。不过搜索列表上的解释显示的都是清一色的奇怪警告,不知道是怎么回事。用的安卓欧路Screenshot_2021-11-14-15-20-15-09_32d76ed0cd82b305668f31fe52107a47

词头减少(增订第二版mdx词头145059个,没有通搜,应该是直接用epwing转的)似乎是删了很多过时词、通用写法、用不到的词或者方言词,比如我从“阿”开始看,第三版删掉了
“阿傍”(意同阿旁)
“阿比让”(科特迪瓦首都)
“阿比西尼亚”“哀提欧皮亚”(埃塞俄比亚旧译名)
“阿勃”(一种小麦品种)
“阿曾”(方言,意为曾否)
“阿带”(同“阿呆”,清《称谓录》中记录其为浙省方言,见《大汉和辞典》)
“阿跌”(古代复姓,突厥部族)
“阿尔科尔”(酒精,alcohol音译)
“阿尔起尔根”(烷基,alkyl音译)
“阿尔然丁”(阿根廷旧译名)
“阿飞舞”(词典里说是方言中的一种舞蹈,没有找到资料)
“阿伏加德罗定律”“爱服盖独氏定律”(一种化学定律,现在通常作“阿伏伽德罗”,第三版收录了“阿伏伽德罗常量”)
等等。

第三版新增词汇,同样从“阿”开始,有:
阿布贾(尼日利亚首都)
阿谄(阿谀奉承)
阿尔茨海默病
阿糊(方言糊涂人)
阿混(方言混日子的人)
阿加德米(学院,academy)
等等。

加的词确实没有删的多,第三版的释义内容也确实差别不小,相对更注重词语本身的解释而非百科性解释,比如地名人名不会介绍的太细,但词语解释的更细,我想这是编辑方针带来的变化。

3 Likes

除此之外还有一点建议,我发现带括号的词头,如“阿鼻(地狱)”,mdx词头里只有“阿鼻地狱”,如果按照第二版的逻辑,应该同时带上“阿鼻”。

这还导致了另一个严重的问题,如词头“黄(黃)”,到mdx里只剩下一个“黄黃”的词头。

感谢反馈,下载新版本看看

大神实在太强了,不知道可不可协助制作「日本语活用形辞书」,网址:日本語活用形辞書 - Weblio 辞書・百科事典
这一本对于日语单字变形查询其辞书体非常有用,如果能制成mdx,搭配其他日语词典可说是事半功倍。感谢大神。

3 Likes

新版本CSS字号有点大,14px差不多,谢谢大神 :smiling_face_with_three_hearts:

好的,不过每个网站爬取时都不太一样,如果一直没有词典放出来,那就是搞不定了。

大佬们,CSS自己改啊,我眼神不好,所以字号越大越喜欢。

2 Likes

简单改了下CSS:
图片
aizhiCJv3.css (902 字节)
中日文分别用了思源宋体的中文字形和日文字形。

14 Likes

简单做了个logo
中日大辞典v3

2 Likes

实在太好人了

1 Like

感谢!这样看起来更清楚~ :grin:

2 Likes