《新明解日汉词典》 OCR文本

所以你有做页内跳转吗?应该需要每行都设置了一个偏移量id,不然有的词典处理不了,你看看広辞苑就知道了。

这本的话,每个词头设一个就可以了。広辞苑之类再怎么复杂当不在话下。

你转一个第六版试试,我对我做的不满意。第七版的logovista发行的删减了汉字辞典、视频和附录。

我有岩波书店 広辞苑(第五版) 第六版没有,你有就发一个

有第六版的,你去nyaa.si找一下合集。

打不开网站。你有就分享一个,我过几天试试。

【超级会员V6】通过百度网盘分享的文件:[アプリ].岩波…
链接:https://pan.baidu.com/s/12liRW3P7u_lDnyQ6Wy7CfQ
提取码:wgtn
复制这段内容打开「百度网盘APP 即可获取」

不是程序,应该是epwing库吧?

iso光盘才是原版,里面内置的是epwing标准的词库,内部有很多自实现的标签,用自己的官方程序看显示效果比较好。

不错,我也来研究下现在的程序能不能解析这个。之前看到标准有说视频内容我都没见到有带视频的epwing。

ok明白了过几天看看

我好像没看到有第三方库说解析视频了的,提取视频的代码和色彩呈现的转换(孟塞尔色 to rgb)我都自己写的。

啊,视频不是标准格式吗,我之是按这篇文章实现的:

https://ebstudio.info/home/tech/EPWING_MMDATA.txt

视频是标准的,我只是好像没看到java库和c库文档说能提取视频。而且真的没什么人在乎视频。搜来搜去没看到,也就ebstudio有文档。

本来想直接匹配词头修正的,结果发现epwing版本中没有汉字是否出现在常用字表和是否和常用字表的读音不同的信息,可能要手动补。

image

image

image

1 个赞

辛苦了,可以先匹配词头?中文版的词头去掉三角、菱形符号就好匹配了。

是的,因为假名小字错误情况太严重了,我准备先保证序号正确,然后直接转为json替换这部分内容,然后在json上对比。我用ai写了个json对比工具,不过目前功能很简陋,还需要大改。