扫描版pdf词典制作成文字型mdx词典需要哪些流程?

,

请假各位朋友,如果我想将一本高清的扫描版pdf词典(页数较少),我想把他用ocr识别文字,然后提取出全部文本。在根据这些文本制作排版跟纸质词典上面一样精美的mdx格式词典,我需要哪些工具和流程呢?技术上能实现吗?

直接用abbyy ocr导出成html文件,然后找个文本编辑器清洗文本,最后转成mdx的格式。清洗这步就是文本替换删除,很需要耐心,如果词典页数少排版简单的话,会容易很多。

1 个赞

劝退流程:各种尝试、错误频现、通宵几天、勉强可用、不敢相信、不如不要、彻底放弃 :rofl:

制作文本MDX,主要的技术准备是HTML+CSS,现在毫无基础的话没必要尝试

制作图片MDX现实些,但首先得知道MDX的一些基础知识、图片加工等

for serious use, don’t do it. or at least use some reputable online ocr services, like google ocr, baidu ocr.