昨天看到旧帖子 爱知大学中日大辞典第3版在线版网址分享 被顶上来了,就尝试抓取了一下。
因为这部辞典没有索引,所以只能按照逻辑遍历。单字1万+,复合词11万+,另加338条的「未収語」。其中不少的词目包含类推简化字,原始网站用图片显示,这类是无法直接搜索的。
最终索引词条数为131,060,明显和流传的14万、15万有差距,可能统计方式不一样导致,可能故意夸大(官方网站的词条最大ID为128298),也可能抓取时有部分遗漏。欢迎大家反馈。
昨天看到旧帖子 爱知大学中日大辞典第3版在线版网址分享 被顶上来了,就尝试抓取了一下。
因为这部辞典没有索引,所以只能按照逻辑遍历。单字1万+,复合词11万+,另加338条的「未収語」。其中不少的词目包含类推简化字,原始网站用图片显示,这类是无法直接搜索的。
最终索引词条数为131,060,明显和流传的14万、15万有差距,可能统计方式不一样导致,可能故意夸大(官方网站的词条最大ID为128298),也可能抓取时有部分遗漏。欢迎大家反馈。
好耶。
楼主你忘放下载链接了,直接传上来吧。
楼主怎么解决的反爬呢
确实会被屏蔽。后来改成一次请求sleep 0.2就可以了。
我就在浏览器中操作,准备看看id结构,就被封了
哇哇哇,前两天我偶然看到帖子回了两句,这就把词典爬出来了
词头减少(增订第二版mdx词头145059个,没有通搜,应该是直接用epwing转的)似乎是删了很多过时词、通用写法、用不到的词或者方言词,比如我从“阿”开始看,第三版删掉了
“阿傍”(意同阿旁)
“阿比让”(科特迪瓦首都)
“阿比西尼亚”“哀提欧皮亚”(埃塞俄比亚旧译名)
“阿勃”(一种小麦品种)
“阿曾”(方言,意为曾否)
“阿带”(同“阿呆”,清《称谓录》中记录其为浙省方言,见《大汉和辞典》)
“阿跌”(古代复姓,突厥部族)
“阿尔科尔”(酒精,alcohol音译)
“阿尔起尔根”(烷基,alkyl音译)
“阿尔然丁”(阿根廷旧译名)
“阿飞舞”(词典里说是方言中的一种舞蹈,没有找到资料)
“阿伏加德罗定律”“爱服盖独氏定律”(一种化学定律,现在通常作“阿伏伽德罗”,第三版收录了“阿伏伽德罗常量”)
等等。
第三版新增词汇,同样从“阿”开始,有:
阿布贾(尼日利亚首都)
阿谄(阿谀奉承)
阿尔茨海默病
阿糊(方言糊涂人)
阿混(方言混日子的人)
阿加德米(学院,academy)
等等。
加的词确实没有删的多,第三版的释义内容也确实差别不小,相对更注重词语本身的解释而非百科性解释,比如地名人名不会介绍的太细,但词语解释的更细,我想这是编辑方针带来的变化。
除此之外还有一点建议,我发现带括号的词头,如“阿鼻(地狱)”,mdx词头里只有“阿鼻地狱”,如果按照第二版的逻辑,应该同时带上“阿鼻”。
这还导致了另一个严重的问题,如词头“黄(黃)”,到mdx里只剩下一个“黄黃”的词头。
感谢反馈,下载新版本看看
大神实在太强了,不知道可不可协助制作「日本语活用形辞书」,网址:日本語活用形辞書 - Weblio 辞書・百科事典
这一本对于日语单字变形查询其辞书体非常有用,如果能制成mdx,搭配其他日语词典可说是事半功倍。感谢大神。
新版本CSS字号有点大,14px差不多,谢谢大神
好的,不过每个网站爬取时都不太一样,如果一直没有词典放出来,那就是搞不定了。
大佬们,CSS自己改啊,我眼神不好,所以字号越大越喜欢。
简单做了个logo
实在太好人了
感谢!这样看起来更清楚~