《新明解日汉词典》 OCR文本

同样是用Gemini和夸克OCR了一遍。然后做了简单修正,比如注音符号的0会固定错误识别为回,这个词典仍然有小的注音符号识别问题,其他的问题不大。
这个词典的原版是《新明解国語辞典 第五版》,是比较老的版本,估计和现在第八版差别比较大,我还准备OCR一下第五版原版,看看能不能整合。
不过竖排文本夸克识别的完全没法用,算法不行,经常把这个当横排先旋转再识别,然后识别出来全是乱码,gemini识别竖排文字效果也很好。

新明解日汉词典_gemini.txt (9.9 MB)
新明解日汉词典.docx (9.8 MB)
新明解日汉词典_quark.txt (9.9 MB)

4 个赞

这本有版本号吗?是什么版本?我看到第五版有epwing词库。

哦,epwing我找了一下也找到了,那感觉不用ocr了。我是ocr的纸质版。

1 个赞

EPWING是日语原版的,不是日汉的。期待继续OCR第八版。

第八版已经有mdx版了啊,我找第五版是因为中文版用的是第五版,可以进行和中文版比对插入。

补一个第五版的epwing格式链接
(三省堂)新明解国語辞典[第五版].zip (12.0 MB)

发现epwing转换很麻烦,用zero-epwing转换后还有807个字是位图方式保存的特殊字体。还要手动配置码表才能完全转换。

1 个赞

不错,期待做成mdx文件。

有一个yomichan的版本的新明解国语辞典,解开压缩包以后是json文件,不知道文本全不全。这个要是内容齐全的话应该比epwing好转换一些。

新明解国語辞典第五版v3.zip (6.5 MB)

2 个赞

这个版本不错,我看外字也转换了:


image


image

我昨天让ai写了个程序把外字都处理成图片了,结果发现只有gemini能识别一部分,因为是jis编码之外的全是生僻字,其他的ai识别结果乱七八糟的

然后释义也能对应:

:play_button:あ・う【合う】①: ① (自五) ●くなに・だれト~>一致。相同。相符。例どこまで行っても〜ことの無い二つの線/两条永远也不会相交的线。◇帳尻{ちょうじり}が~/账尾相符。◇二人の証言は合っている/两个人的证词相吻合。◇つじつまが~/前后对得上。◇ぴたりと(阿吽{あうん}の)呼吸が~/合拍。(相扑选手为扳倒对方,双方站起身子时气息一致)◇意見(そり)が合わない/意见不合。(脾气不合) ◇話(性・馬)が~/谈得来。(性情相投;投缘)◇落ち~/会合。合流。②くなに二~>合适。适合。相称。例趣味(体質)に~/符合爱好。(适合体质) ◇基準(実情・実態)に合わない/不合标准。(不符合实情;与实际情况不符)◇時計が合っていない 〔=正しくない〕/表不准。◇今度の靴はよく足に~〔=ぴったりで、具合の悪い所が少しも無い〕/这次的鞋很合脚。◇ピントが~/正中要点。◇間に~〔=⇨間に合う〕/来得及。●くなに二~>相称。协调。相配。例服に~ネクタイ/与服装相配的领带。◇壁紙によく〜カーテン/与壁纸相称的窗帘。●くなにニ~>合算。划算。不亏本。例百円では合わない [=損だ〕/100日元就不合算了。◇採算が~/够本。不亏本。◇割に合わない/不划算。划不来。■〔作接尾词〕互相。相互。例愛し〜④: ④/相爱。◇ほめ~③: ③⓪/相互夸奖。◇殴り~④: ④/扭打。

1 个赞

我也来提供一下外网的《新明解国语》第五版的mdx和stardict版本。请高手看看哪个版本更好用。
先是mdx版本
(三省堂)新明解国語辞典[第五版].mdx (6.6 MB)
然后是stardict版本
(三省堂)新明解国語辞典[第五版].zip (15.1 MB)

1 个赞

这两个版本外字都是正确的,三个版本分别是epwing,mdx和stardict,但是后两个版本转换时把原来的标签都丢弃了。

我感觉最好的方案是用这个反向还原出外字表,然后再重新提取epwing版,可以保证标签完整保留,同时也不会缺字。

3 个赞

请问哪里找的mdx版和stardict版,没有mdd和css吗?能分享下渠道吗,想看看有没有别的。

这个是纯文本,没有样式,所以没css,也没图片。因为注音和正文完全混在一起了,所以这个做对照版效果不好。


在这里,能看到 * Stardict/Kobo/KOReader Dictionaries吗?

Add images

没有css和mdd

新明解辞典本来就没有图片的吧,一张都没有

确实没有,刚刚看了眼epwing只有这张。第七版第八版也没有图片,居然这词典是没插图的,之前都没注意到这点。

目前能找到的日文版新明解第五版的数据是完整的,比扫描版的ocr错误肯定是要低很多。因此,是不是可以在相对准确的日文版的基础上,在解释和例句后面插入对应扫描出来的中文内容。这样组合的版本就比较适合初学者使用。且相对日文原版,中文部分的格式变化是最少的。不存在各种上下标和特殊符号。只需要确认插入的中文内容ocr相对比较准确。这要比确保日文部分扫描识别零错误要容易很多。而且即使中文部分出现识别错误,使用者也是比较容易发现的。
我记得本站明镜双解词典的作者就是采用日文原版插入中文翻译的做法实现的。目前明镜双解是我使用频率最高的词典。

日语词典,能找到 epwing 词库的话,直接转就行。这方面技术已可流畅实现。三省堂 小学馆 等一众出版社出版的够多的了。隔壁有个专栏,我统计了一下各种词典有七八十种。

1 个赞

转换工具是有的,但都不完美,主要是两个问题,一个是html标签,会被转换成特殊字符,现在的转换工具好多直接丢弃标签。一个epwing只支持是JIS X4081编码而不支持unicode,编码范围外的字符是私有字符区加外字字体文件来表示,就需要从图片来做类似ocr操作建一个自定义码表到unicode的转换,这个每个词典都不一样,转换工具都是硬编码。

epwing文档
支持的html标签在第5部分

现在各种转换工具都依赖一个c写的库,但是工具对标签好多都没正确转换