如何制作文字版辞典

目前已经会了最简单的图片词典的做法,原理就是图片和页码能够一一对应。因此我想,把图片换成对应的一页文字,然后让一页的文字和页码一一对应,该怎么去处理呢
如果可以的话,是否有教程帖子
如果不行的话
我听别人说可以用equb的格式来制作文字版词典,那是否有equb制作词典的教程贴子
希望好心人可以给给提示,多谢了

1 个赞

图片版转文字版其实难度很高的,如上教程可能作用不大,你得先了解ocr和各种图片处理工具以及自动化工具。
epub制作你得先了解正则,html和css基本知识,相比之下简单多了

我一无所知,以上仅供参考,如果觉得我说错了,那一定说错了。

图片转文字,OCR识别率真的不高,错误非常多了。

epub/mobi制作MDX方法可以看佛爷这个帖子:

从epub/mobi制作MDX方法(零基础可学会)

1 个赞

实际制作中会有很多意料外的问题的,佛爷的方法并不通用啊

现在离线ocr精度跟在线ocr没法比
目前最有名的OcrLiteOnnx和teressact跟在线的比都还是小巫见大巫
以下仅供参考

个人推荐高质量识别接口排序:合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR
来自PandaOCR作者
https://support.qq.com/embed/phone/322047/faqs/93847

合合ocr收费很贵,火山目前完全免费
不过如何调用接口又得要好好研究一下

3 个赞

可以弄一个finereader,把图片ocr了,每页存为一个文本(txt或htm)。

finereader

在图像版mdx每页按页码链接到同页的text(txt或htm)。理论上可以这样做,mdict说明里有。

没看到有人这样做,当然没有教程。

ocr会有很多错误,随用随改。

1 个赞

“mdict说明 ”是什么,如何找到这个说明呢。
文字识别网上有很多软件,我可以都试一下。我对文档的精确度要求不高的,在用的过程中慢慢修改就好了。因为我制作的词典并不是词语词典,要求准确无误。

ocr这个问题,我目前要求并不高,都是自用。

哪有那么equb的书,我基本上很少读这个格式的书籍

你可以看看这个帖子:

新手指南:怎样编辑mdx?

词典制作工具MdxBuilder对mdict的格式有一些说明。我没弄过。我想不管你学佛爷epub转mdx的方法,或者自己学习链接到text,都需要摸索一番。

路假如走通了,就发个帖子谈谈经验吧,也许对后面的人有帮助。

我觉得ocr有两个用处:

1.帮助找到图片。(Goldendict可以全文检索,检索ocr不容易错的字,找图片。)

2.假如需要引用,不需要打所有字,只需要改ocr错字。

epub可以在annas-archive找。能不能找到你要的书,得看运气。

词典 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=词典+epub

英汉 epub
https://annas-archive.org/search?q=英汉+epub

汉英 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=汉英+epub

我看了说明,里面没有。不会是真的没有。有这几个:
“转换Star Dict文件到mdx格式的步骤 ”
“ 全局音频库的指定(实现真人发音)”、
“1) 扩展的SugarDict格式:
2) KDict解码后的tab格式
3) MDict的html格式
在html中嵌入图片的方法
在html中嵌入声音的方法:
4) MDict的紧凑型html格式 ”

没找到如何链接到txt文档上,我想想是不是把txt文档转换成html格式,感觉就应该可以了吧

我看到有把N个html(带图片的那种)转成mdx词典的,但就是不知道方法。

哪位大佬知道的,请分享一下制作方法,谢谢。

我再去看了一下说明,我想我的记忆错了。我说的大概是我想做的实验,放弃没做,还以为可以。

普通的网页可以连接到电脑内文件,甚至可以通过脚本编辑。至少过去是可以的,我试过,这种网页叫hta。新的系统还行不行,就不知道。

mdx可以连接到外部网站的网页,但是似乎不能直接连接到电脑内的文本。假如通过脚本调用外部程序,当然是可以的。至少我知道:Wfg的mdx是可以通过脚本,打开外部的pdf,还跳到某一页的。

有兴趣可以研究wfg的《本草纲目》mdx

那么,ocr的内容能不能弄到mdx里来?要先处理过,每一页处理成一条。这不会太困难——假如不要求好看。ocr文本通常很丑。

这个没有通用的方法,需要分析网页的结构,然后用脚本或正则把每一页处理成mdx的一条。

基本的概念就是一条的第一行是词头,第二行接下来是内容,第三行是分割符号。

和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的,寻找灵感。

补充:

1.可以先用老马的textforever合并所有网页。

2.看一下网页的title能不能做词头,假如不行,看看网页内有没有标题h1/h2/h3之类的可以做词头。

好的,谢谢。

我感觉需要用正则对文档的内容进行调整,应该就可以了。毕竟OCR文本是很有特征的,前面图片的名称会输出到文档里,我想到时候把图像的名称,用正则替换成页数和词头,就可以进行批量替换了。只不过我不知道公式是啥。只不过我现在对这方面并不着急,以后再学吧。但至少这个思路,我觉得应该是可行的

用Emeditor也可以批量替换资料。

Emeditor实现快速词典校对操作

回帖明显看到两个论坛的差别和差距。