请问Pdf文字版百科全书如何做图片词典最清晰?

如果转文字的话,排版会乱,工作量太大了。

转文字版不好弄,错误太多、转换困难。
当成图片版使用吧:)很多软件可以输出PDF为图片。

看来只能如此,处理成图片:) 或者先不碰它

文字版PDF制作MDX一向是个难题。

一个是大多数情况下提取文本没啥问题,但添加HTML标签工作量确实太大了。提取文本时连想保存斜体这一种格式信息都难。如果文件不大,可考虑先用word打开另存为docx文件(也有人说 用WPS更好),然后想办法再转为html文件、开始正则洗版。

还有一种情况是文字版PDF本身有诸多内嵌字体,复制粘贴出来的都是乱码。这种情况就只能当作图片PDF,用PDFPatcher按页面导出图片来OCR了。

1 个赞

似乎可以先易后难,先做图片版,再做文字版,两版词头相同,对照阅读。