如何制作文字版辞典

suiyue123 · 2023 年1 月 27 日 06:18

目前已经会了最简单的图片词典的做法，原理就是图片和页码能够一一对应。因此我想，把图片换成对应的一页文字，然后让一页的文字和页码一一对应，该怎么去处理呢
如果可以的话，是否有教程帖子
如果不行的话
我听别人说可以用equb的格式来制作文字版词典，那是否有equb制作词典的教程贴子
希望好心人可以给给提示，多谢了

amob · 2023 年1 月 27 日 06:24

图片版转文字版其实难度很高的，如上教程可能作用不大，你得先了解ocr和各种图片处理工具以及自动化工具。
epub制作你得先了解正则，html和css基本知识，相比之下简单多了

我一无所知，以上仅供参考，如果觉得我说错了，那一定说错了。

jcz777 · 2023 年1 月 27 日 06:29

图片转文字，OCR识别率真的不高，错误非常多了。

shaoshi · 2023 年1 月 27 日 06:31

epub/mobi制作MDX方法可以看佛爷这个帖子：

从epub/mobi制作MDX方法(零基础可学会)

amob · 2023 年1 月 27 日 06:32

实际制作中会有很多意料外的问题的，佛爷的方法并不通用啊

amob · 2023 年1 月 27 日 06:33

现在离线ocr精度跟在线ocr没法比
目前最有名的OcrLiteOnnx和teressact跟在线的比都还是小巫见大巫
以下仅供参考

个人推荐高质量识别接口排序：合合OCR、火山OCR、讯飞OCR、有道OCR、腾讯OCR、百度OCR
来自PandaOCR作者
https://support.qq.com/embed/phone/322047/faqs/93847

合合ocr收费很贵，火山目前完全免费
不过如何调用接口又得要好好研究一下

shaoshi · 2023 年1 月 27 日 06:39

可以弄一个finereader，把图片ocr了，每页存为一个文本(txt或htm)。

finereader

在图像版mdx每页按页码链接到同页的text(txt或htm)。理论上可以这样做，mdict说明里有。

没看到有人这样做，当然没有教程。

ocr会有很多错误，随用随改。

suiyue123 · 2023 年1 月 27 日 07:47

“mdict说明 ”是什么，如何找到这个说明呢。
文字识别网上有很多软件，我可以都试一下。我对文档的精确度要求不高的，在用的过程中慢慢修改就好了。因为我制作的词典并不是词语词典，要求准确无误。

suiyue123 · 2023 年1 月 27 日 07:56

ocr这个问题，我目前要求并不高，都是自用。

suiyue123 · 2023 年1 月 27 日 08:01

哪有那么equb的书，我基本上很少读这个格式的书籍

shaoshi · 2023 年1 月 27 日 08:05

你可以看看这个帖子：

新手指南：怎样编辑mdx？

词典制作工具MdxBuilder对mdict的格式有一些说明。我没弄过。我想不管你学佛爷epub转mdx的方法，或者自己学习链接到text，都需要摸索一番。

路假如走通了，就发个帖子谈谈经验吧，也许对后面的人有帮助。

我觉得ocr有两个用处：

1.帮助找到图片。(Goldendict可以全文检索，检索ocr不容易错的字，找图片。)

2.假如需要引用，不需要打所有字，只需要改ocr错字。

epub可以在annas-archive找。能不能找到你要的书，得看运气。

词典 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=词典+epub

英汉 epub
https://annas-archive.org/search?q=英汉+epub

汉英 epub
https://annas-archive.org/search?lang=&content=&ext=&sort=&q=汉英+epub

suiyue123 · 2023 年1 月 27 日 10:00

我看了说明，里面没有。不会是真的没有。有这几个：
“转换Star Dict文件到mdx格式的步骤 ”
“ 全局音频库的指定(实现真人发音)”、
“1) 扩展的SugarDict格式:
2) KDict解码后的tab格式
3) MDict的html格式
在html中嵌入图片的方法
在html中嵌入声音的方法:
4) MDict的紧凑型html格式 ”

没找到如何链接到txt文档上，我想想是不是把txt文档转换成html格式，感觉就应该可以了吧

9981 · 2023 年1 月 27 日 10:35

我看到有把N个html（带图片的那种）转成mdx词典的，但就是不知道方法。

哪位大佬知道的，请分享一下制作方法，谢谢。

shaoshi · 2023 年1 月 27 日 12:01

我再去看了一下说明，我想我的记忆错了。我说的大概是我想做的实验，放弃没做，还以为可以。

普通的网页可以连接到电脑内文件，甚至可以通过脚本编辑。至少过去是可以的，我试过，这种网页叫hta。新的系统还行不行，就不知道。

mdx可以连接到外部网站的网页，但是似乎不能直接连接到电脑内的文本。假如通过脚本调用外部程序，当然是可以的。至少我知道：Wfg的mdx是可以通过脚本，打开外部的pdf，还跳到某一页的。

有兴趣可以研究wfg的《本草纲目》mdx

那么，ocr的内容能不能弄到mdx里来？要先处理过，每一页处理成一条。这不会太困难——假如不要求好看。ocr文本通常很丑。

shaoshi · 2023 年1 月 27 日 12:08

这个没有通用的方法，需要分析网页的结构，然后用脚本或正则把每一页处理成mdx的一条。

基本的概念就是一条的第一行是词头，第二行接下来是内容，第三行是分割符号。

和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的，寻找灵感。

补充：

1.可以先用老马的textforever合并所有网页。

2.看一下网页的title能不能做词头，假如不行，看看网页内有没有标题h1/h2/h3之类的可以做词头。

9981 · 2023 年1 月 27 日 12:57

好的，谢谢。

suiyue123 · 2023 年1 月 27 日 14:38

我感觉需要用正则对文档的内容进行调整，应该就可以了。毕竟OCR文本是很有特征的，前面图片的名称会输出到文档里，我想到时候把图像的名称，用正则替换成页数和词头，就可以进行批量替换了。只不过我不知道公式是啥。只不过我现在对这方面并不着急，以后再学吧。但至少这个思路，我觉得应该是可行的

shaoshi · 2023 年1 月 27 日 14:45

用Emeditor也可以批量替换资料。

Emeditor实现快速词典校对操作

aimdict · 2023 年1 月 28 日 07:32

回帖明显看到两个论坛的差别和差距。