日本語非辞書形辞典_v1

之前打算搞这个活用形辞書,但反爬有点烦人,自己也不学日语,结果半途而废。

给个URL列表供大家参考吧,若哪位抓取、制作了,可以分享下。

weblio.txt.gz (2.6 MB)

2 个赞

这不是我做的。
只是看了你的帖子,
觉得应该有强者做过,
果然有找到。

昨天还有看到两个相关的 Morphological Analyzer
有兴趣可以研究一下。

http://taku910.github.io/mecab/

1 个赞

请求间加个延迟就行了
我昨天加了1.3s的random延迟爬《精選版 日本国語大辞典》到现在没被ban,但才爬了 1w看错 10w条,目测还得2天
但不知道最小值在哪
被ban下等好久,不太好试

刚刚发现weblio上的这本突然消失了,不会是我爬的原因吧 ,这下只剩kotobank有了

1 个赞

很有启发,非常感谢!

1 个赞

还是十分感谢!!!之前只能笨笨地用Google机翻给的conjugate这个单词到处找相关研究,实在后悔没继续坚持学英语

完整版的日国大mdx,不是meigen抓过吗?为啥还要去搞精简的?

我站内搜索没找到啊,只找到站长之前爬的kotobank的版本,长句谚语的词头还有些问题
而且感觉weblio的词头处理的更好

如果是公开分享的话方便给个地址吗

谢谢,不过我没账号,如果不能外传就算了吧

隔壁meigen的:

霓虹国語大辞典[2018.3.11]

链接:https://pan.baidu.com/s/1qYRTXeO 密码:phte

3 个赞

哇,支持楼主 :bingdundun: :bingdundun:

1 个赞

2022-03-20 优化说明

通过<a href="entry://(.*?)#section">支持跳转查词手机上用更方便了,不用再手动复制一次)
补充直接去掉词尾的变形:比如集める集めます/集めた等变形,划 集め部分查词即可。

下载

地址还是原来的文件夹,文件名是日本語非辞書形辞典-2022-03-20.zip

词典文件 https://wwa.lanzouf.com/b011ddt4h 密码:9x1k

3 个赞

可以直接传到论坛

1 个赞

好的(囧,一不小心超过了20MB,优化下再传论坛 :blush:

1 个赞
1 个赞

会重复出现的内容还是有不少,望排查,如し、マス

本来搜的就是辞书型有的有再次到辞书型的跳转,有的却没有跳转…

不少词搜出来会显示一个不能跳转的辞书形,而下方有跳转。有的却只有一个能跳转的辞书形

敢问楼主融合了哪些词库

词库来源就一个大辞泉(不是最新的哈),但只是用了它的词条,只是没想到问题会这么严重……
另外,十分抱歉,我最近2个月比较忙,所以可能抽不出来时间维护词典了,暂时先将就用下吧 ̄▽ ̄。

如果等不及的话,可以用这里真·源码中间文件 提取码:j414动手尝试一下

楼主这样应该会搞出不少多余词条,比如:あお‐じる【青汁】
还是穷举好,其实日语的活用是有限的

既然是提取大辞泉的词头,那不妨把下面的品词也提取分类,比如:
か・く【書く┊描く┊▽画く】
〘動カ五(四)〙
是カ行五段活用,对应かか、かこ、かき、かい、かけ、書か、書こ、書き、書い、書け……

现代文只需提取动词的五段活用、 下一段活用、 上一段活用、カ行変格活用、 サ行変格活用,再加个形容词就够了,再针对几个特殊变化修改,比如行く(同是カ行五段活用)连用形是行っ不是行い。具体活用可以参照维基。

而且我觉得还是直接改词典好,比如:
ふけて应该对应ふ・ける【老ける】、ふ・ける【更ける┊▽深ける】、ふ・ける【▽蒸ける】
ふけって应该对应ふけ・る【×耽る】
如果都对应ふける,难免误人子弟

下载才发现楼主似乎全都当五段活用处理了,这肯定要不得,乱套了

物书堂这样的专业词典,似乎也没有对动词变形做扩展,不知道是什么原因?好像只简化了浊音、半浊音以及片假名到平假名的映射的查询。

这的确是物书堂词典的一大遗憾。只能说把查词做到了极致,但不适合阅读。而且像物书堂这要要切应用查词的本来也不适合阅读。

另一方面,苹果自带的词典支持查变形,但只能平假名查片假名,不能片假名查平假名。而且苹果自带的是大辞林,对词的索引本就弱于大辞泉(比如大辞泉能查到日なたぼっこ),倒是物书堂里大辞林对句的索引比大辞泉强。

又要夸夸Kindle词典了,确实是针对阅读优化过的。只可惜自带大辞泉数据太老了(应该还是第一版),而且对惯用句的各种变形支持不好。不过惯用句的变形没有哪家是好查的。

1 个赞