《新明解日汉词典》 OCR文本

你可以看看 epwing 文档,二进制标签编号有对应的 html 标签。至于外字,找出来统一替换就行了。

外字有800多个,都是生僻字,麻烦在这里。

我之前让ai识别效果也不好

这个工具倒是内置了转换表,是每个字典单独实现的,但新明解这本词典转换工具只处理了4个字。

所以现在只能换思路,先写程序用和他人转换了不带格式版本的对比得到外字表,再用工具转换带格式html,再写程序替换外字。

不能只识别扫描版的汉字部分然后插入现有的日文版里面吗?

肯定是只能全识别,然后要对齐词条才能自动插入。

我又来了。我仔细研究了一下日文版和日汉ocr识别版。在词条内容完全对着上的前提下,是不是可以用一种比较简单的方法去实现日汉双解的内容。比如说不破坏日文原版的情况下,把汉语部分完全放在词条日语内容的后面。
我看到日汉版,在词条的第一个例句前有“例”,然后日文例句之后有个"/"后面接中文。可以把从例到/之前的日语部分删除,仅保留例句的汉语翻译部分。这样处理之后,每个词条的日汉词典部分只剩中文的解释和中文的例句翻译。这整个部分放在日文原版词典后面,也可以起到双解的目的。不需要将每个词条的汉语解释和例句翻译插到对应的位置。处理起来就会容易很多。

其实直接插入也不是很难,这个问题我已经研究过了

不过更好的方法还是语法分析然后插入

楼主有没有兴趣ocr一下这个词典,目前只有图片版

我最近就在整理日语词典,这个以后会ocr的。

1 个赞

补充paddleocr识别文本:

新明解日汉_paddleocr.7z (13.2 MB)

1 个赞

epwin 第五版 版权信息:
タイトル 新明解国語辞典 第五版
出版社 株式会社 三省堂
著作権 株式会社 三省堂
这个版本如何?如果行,可尝试无缝转换。

我现在已经和mdx对比提取了部分外字,然后又从epwing提取了一个带有标签的版本,还没整合完,感觉epwing没有好的提取工具,现在的提取工具对标签,链接,图片什么的支持都不好。

1 个赞

尝试复刻自epwing:

这个版本的链接有点乱,显示文字是平假名、片假名、汉字混用,一些目标词条是平假名的,用片假名描述。由于链接不能直接使用,要根据描述文字恢复,现只检查了无效链接,保证链接都是有效的;至于链接到片假名的平假名词条暂时没处理。

链接: 百度网盘 请输入提取码

3 个赞

这个效果不错啊,用什么工具转换的?我之前让ai按文档写了一个,结果发现有不少文档没说明的情况还要自己改。

从 ebdump 得到 shift-jis 代码,自己转成 明文,结合 html 修改标签。刚刚回顾一下,发现链接也可以完美复制。过几天再完善一下链接这个小问题。

哦,这个方法不错,可以省不少事,不过ebdump在现代系统要用locale转换工具才能正常打开,另外外字和图片要单独转换吧。

外字代码和图片代码是一一对应的。走捷径,词头外字才转文字,正文中的外字(词头之外的)就跳过了。

1 个赞

从epwing词库转换的文本中提取链接地址,已按跳转地址更新所有链接。楼主志在日汉双解,可研究插入中文文本。

2 个赞

你按偏移量设置词头和元素ID了?我感觉好麻烦,epwing的链接mdx没法用。。

根本原因是epwing的标签太自由了,标签的显示效果都是出版社自家程序(光盘附带程序壳的有好几种,我都没统计)实现(logovista也有不少自定义的),ebwin显示效果也就勉勉强强。ebwin的作者hishida自己都没全部弄清楚,你指望写第三方库的做多好。

ebdump这个软件也很难用,我都想重新写一个了。

所有元素完美保留,原汤原味。ebstudio 文档有详细解释。