《新明解故事ことわざ辞典 第二版》 OCR文本

这个我用paddleocr和gemini识别了一遍,本来我打算直接校对完的,结果发现因为furigana问题非常麻烦,预计校对时间超过20小时。目前我只校对了前5页(就是gemini的那个文本),先把文本发上来,全书正文共704页,加附录35页,希望有爱好者合作完成。

pdf:
通过网盘分享的文件:新明解故事辞典第二版.pdf
链接: 百度网盘 请输入提取码 提取码: 1234

文本:
新明解故事辞典第二版_gemini.txt (3.2 MB)
新明解故事辞典第二版_paddleocr.txt (3.1 MB)
paddleocr json文件:
新明解故事辞典第二版_paddleocr.zip (7.4 MB)

你要弄这部阿,其实我想搞已经很久了,书也拆了,扫描后等着动手…
我真心最想要的是三省堂的另一本 “故事ことわざ・慣用句辞典(第二版)”
无奈弄不到 atok 的数据

001.rar (1.5 MB)

日语的 ことわざ辞典比较少,我看这个有pdf,就想做一下。不过比我想的难不少,furigana太多了,ocr还有程序自动标注的都有问题,要花很长时间校对。我现在是用程序自动添加了furigana,然后做了部分格式修正。要不要一起弄?

atok是三省堂的吧,和这个不是同一本,另外現代語古語類語辞典别的地方好像也没有数据。
https://www.justsystems.com/jp/products/ichitaro/features/feature09.html

对制作辞典,我可能有强迫癖,我都是将每一个词条内的内容跟书本人工校对过一遍才甘愿。弄这部的话,我的行程排在后面,可能要不少时间了…

这个是一太郎里面的,每年都会搞一新版,内附上几部辞典当卖点

我说的是这个
我是想过找个时间,狠下心花钱,拚半年内把他的数据弄出来

我手上有的ことわざ或惯用句或四字熟语都超过10本了,等着弄的还有5本以上,很多了

我看很多小学用的比如学研和小学馆的有电子版,还有japanknowledge和dongri有好几本的数据,不过mdx之前制作了而且发布的应该只有两个。