《日本语新辞典》OCR 文本数据

这本也是个不错的日语学习词典,有很多短语和辨析内容,现在已经绝版,值得文本化。 不过这个词典使用了很多特殊符号,还有表情符号,注音是通过粗体来标的,所以可能只能手工核对词头和注音部分。另外原书有大字号标注常用词,但是ocr工具对这个识别不好,可能需要再额外处理图像来确定。

我用Gemini识别了文本,已经进行初步校对,替换了出现幻觉的页面,和夸克进行了对比,不过目前部分词头仍然有问题。 目前提取的词头只有58200个,少于标注的63000,有很多词头有问题的会提取失败,但估计最多几百个。

由于我还要准备考N2,校对工作只能以后再做了,另外现在改进了脚本,文本化词典比较容易,我准备继续文本化其他日汉词典,包括《新明解日汉词典》和《新世纪日汉双解大词典》。

日本语新辞典_gemini.txt (14.0 MB)

夸克识别文档:
日本语新辞典.docx (11.5 MB)

转换为txt(特殊处理了表格):
日本语新辞典_quark.txt (14.3 MB)

词条提取为json格式(目前还不全):
日本语新辞典_gemini.zip (8.6 MB)

5 Likes

读秀 PDF 下载:

感谢,之前我在另外一个贴上也提到过要文本化这个词典。之前看到有朋友说明年在japan knowledge要上这个词典了。我买了这个词典的实体书,字确实有点小。可以大家一起来帮忙校对。

新明解国语双解也很期待。新世纪日语双解本论坛里已经有了。

这个感觉手动校对还是比较麻烦,需要先粗校处理词头,然后划分词条做图像对比版精细校对。可能需要写一个粗校的工具。 然后新世纪日语双解似乎缺很多词,常用的词都没有,似乎是有道的数据,但我看现在有道已经没有这本词典了,所以想补一下,不过这个书有3本,用大模型应该要很久。

所以我感觉最好是能从japan knowledge上把日本语新辞典完整数据爬下来,然后用ocr版本插入汉语部分。

japan knowledge 并发只有 2 个,很容易封号。

而且现在也没数据,我看订阅费也挺贵的,还是先用对比校对法比较好。

2 Likes

这本考虑到需要很多变迁,辨析,用法的条目栏,感觉其实还是做切图版词典比较好

目前的数据里是完整保留了专栏和辨析表格内容的