请问Pdf文字版百科全书如何做图片词典最清晰?

文字版PDF制作MDX一向是个难题。

一个是大多数情况下提取文本没啥问题,但添加HTML标签工作量确实太大了。提取文本时连想保存斜体这一种格式信息都难。如果文件不大,可考虑先用word打开另存为docx文件(也有人说 用WPS更好),然后想办法再转为html文件、开始正则洗版。

还有一种情况是文字版PDF本身有诸多内嵌字体,复制粘贴出来的都是乱码。这种情况就只能当作图片PDF,用PDFPatcher按页面导出图片来OCR了。

1 个赞