这个我用paddleocr和gemini识别了一遍,本来我打算直接校对完的,结果发现因为furigana问题非常麻烦,预计校对时间超过20小时。目前我只校对了前5页(就是gemini的那个文本),先把文本发上来,全书正文共704页,加附录35页,希望有爱好者合作完成。
pdf:
通过网盘分享的文件:新明解故事辞典第二版.pdf
链接: 百度网盘 请输入提取码 提取码: 1234
文本:
新明解故事辞典第二版_gemini.txt (3.2 MB)
新明解故事辞典第二版_paddleocr.txt (3.1 MB)
paddleocr json文件:
新明解故事辞典第二版_paddleocr.zip (7.4 MB)
你要弄这部阿,其实我想搞已经很久了,书也拆了,扫描后等着动手…
我真心最想要的是三省堂的另一本 “故事ことわざ・慣用句辞典(第二版)”
无奈弄不到 atok 的数据
001.rar (1.5 MB)
日语的 ことわざ辞典比较少,我看这个有pdf,就想做一下。不过比我想的难不少,furigana太多了,ocr还有程序自动标注的都有问题,要花很长时间校对。我现在是用程序自动添加了furigana,然后做了部分格式修正。要不要一起弄?
对制作辞典,我可能有强迫癖,我都是将每一个词条内的内容跟书本人工校对过一遍才甘愿。弄这部的话,我的行程排在后面,可能要不少时间了…
这个是一太郎里面的,每年都会搞一新版,内附上几部辞典当卖点
我说的是这个
我是想过找个时间,狠下心花钱,拚半年内把他的数据弄出来
我手上有的ことわざ或惯用句或四字熟语都超过10本了,等着弄的还有5本以上,很多了
我看很多小学用的比如学研和小学馆的有电子版,还有japanknowledge和dongri有好几本的数据,不过mdx之前制作了而且发布的应该只有两个。