目前已经会了最简单的图片词典的做法,原理就是图片和页码能够一一对应。因此我想,把图片换成对应的一页文字,然后让一页的文字和页码一一对应,该怎么去处理呢
如果可以的话,是否有教程帖子
如果不行的话
我听别人说可以用equb的格式来制作文字版词典,那是否有equb制作词典的教程贴子
希望好心人可以给给提示,多谢了
图片版转文字版其实难度很高的,如上教程可能作用不大,你得先了解ocr和各种图片处理工具以及自动化工具。
epub制作你得先了解正则,html和css基本知识,相比之下简单多了
我一无所知,以上仅供参考,如果觉得我说错了,那一定说错了。
epub/mobi制作MDX方法可以看佛爷这个帖子:
实际制作中会有很多意料外的问题的,佛爷的方法并不通用啊
现在离线ocr精度跟在线ocr没法比
目前最有名的OcrLiteOnnx和teressact跟在线的比都还是小巫见大巫
以下仅供参考
个人推荐高质量识别接口排序:合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR
来自PandaOCR作者
https://support.qq.com/embed/phone/322047/faqs/93847
合合ocr收费很贵,火山目前完全免费
不过如何调用接口又得要好好研究一下
可以弄一个finereader,把图片ocr了,每页存为一个文本(txt或htm)。
finereader
在图像版mdx每页按页码链接到同页的text(txt或htm)。理论上可以这样做,mdict说明里有。
没看到有人这样做,当然没有教程。
ocr会有很多错误,随用随改。
“mdict说明 ”是什么,如何找到这个说明呢。
文字识别网上有很多软件,我可以都试一下。我对文档的精确度要求不高的,在用的过程中慢慢修改就好了。因为我制作的词典并不是词语词典,要求准确无误。
ocr这个问题,我目前要求并不高,都是自用。
哪有那么equb的书,我基本上很少读这个格式的书籍
你可以看看这个帖子:
词典制作工具MdxBuilder对mdict的格式有一些说明。我没弄过。我想不管你学佛爷epub转mdx的方法,或者自己学习链接到text,都需要摸索一番。
路假如走通了,就发个帖子谈谈经验吧,也许对后面的人有帮助。
我觉得ocr有两个用处:
1.帮助找到图片。(Goldendict可以全文检索,检索ocr不容易错的字,找图片。)
2.假如需要引用,不需要打所有字,只需要改ocr错字。
epub可以在annas-archive找。能不能找到你要的书,得看运气。
词典 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=词典+epub
英汉 epub
https://annas-archive.org/search?q=英汉+epub
汉英 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=汉英+epub
我看了说明,里面没有。不会是真的没有。有这几个:
“转换Star Dict文件到mdx格式的步骤 ”
“ 全局音频库的指定(实现真人发音)”、
“1) 扩展的SugarDict格式:
2) KDict解码后的tab格式
3) MDict的html格式
在html中嵌入图片的方法
在html中嵌入声音的方法:
4) MDict的紧凑型html格式 ”
没找到如何链接到txt文档上,我想想是不是把txt文档转换成html格式,感觉就应该可以了吧
我看到有把N个html(带图片的那种)转成mdx词典的,但就是不知道方法。
哪位大佬知道的,请分享一下制作方法,谢谢。
我再去看了一下说明,我想我的记忆错了。我说的大概是我想做的实验,放弃没做,还以为可以。
普通的网页可以连接到电脑内文件,甚至可以通过脚本编辑。至少过去是可以的,我试过,这种网页叫hta。新的系统还行不行,就不知道。
mdx可以连接到外部网站的网页,但是似乎不能直接连接到电脑内的文本。假如通过脚本调用外部程序,当然是可以的。至少我知道:Wfg的mdx是可以通过脚本,打开外部的pdf,还跳到某一页的。
那么,ocr的内容能不能弄到mdx里来?要先处理过,每一页处理成一条。这不会太困难——假如不要求好看。ocr文本通常很丑。
这个没有通用的方法,需要分析网页的结构,然后用脚本或正则把每一页处理成mdx的一条。
基本的概念就是一条的第一行是词头,第二行接下来是内容,第三行是分割符号。
和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的,寻找灵感。
补充:
1.可以先用老马的textforever合并所有网页。
2.看一下网页的title能不能做词头,假如不行,看看网页内有没有标题h1/h2/h3之类的可以做词头。
好的,谢谢。
用Emeditor也可以批量替换资料。
回帖明显看到两个论坛的差别和差距。