这本也是个不错的日语学习词典,有很多短语和辨析内容,现在已经绝版,值得文本化。 不过这个词典使用了很多特殊符号,还有表情符号,注音是通过粗体来标的,所以可能只能手工核对词头和注音部分。另外原书有大字号标注常用词,但是ocr工具对这个识别不好,可能需要再额外处理图像来确定。
我用Gemini识别了文本,已经进行初步校对,替换了出现幻觉的页面,和夸克进行了对比,不过目前部分词头仍然有问题。 目前提取的词头只有58200个,少于标注的63000,有很多词头有问题的会提取失败,但估计最多几百个。
由于我还要准备考N2,校对工作只能以后再做了,另外现在改进了脚本,文本化词典比较容易,我准备继续文本化其他日汉词典,包括《新明解日汉词典》和《新世纪日汉双解大词典》。
日本语新辞典_gemini.txt (14.0 MB)
夸克识别文档:
日本语新辞典.docx (11.5 MB)
转换为txt(特殊处理了表格):
日本语新辞典_quark.txt (14.3 MB)
词条提取为json格式(目前还不全):
日本语新辞典_gemini.zip (8.6 MB)
5 Likes
lee_tc
3
感谢,之前我在另外一个贴上也提到过要文本化这个词典。之前看到有朋友说明年在japan knowledge要上这个词典了。我买了这个词典的实体书,字确实有点小。可以大家一起来帮忙校对。
lee_tc
4
新明解国语双解也很期待。新世纪日语双解本论坛里已经有了。
这个感觉手动校对还是比较麻烦,需要先粗校处理词头,然后划分词条做图像对比版精细校对。可能需要写一个粗校的工具。 然后新世纪日语双解似乎缺很多词,常用的词都没有,似乎是有道的数据,但我看现在有道已经没有这本词典了,所以想补一下,不过这个书有3本,用大模型应该要很久。
lee_tc
6
所以我感觉最好是能从japan knowledge上把日本语新辞典完整数据爬下来,然后用ocr版本插入汉语部分。
japan knowledge 并发只有 2 个,很容易封号。
而且现在也没数据,我看订阅费也挺贵的,还是先用对比校对法比较好。
2 Likes
神农X
9
这本考虑到需要很多变迁,辨析,用法的条目栏,感觉其实还是做切图版词典比较好