求助:PDF导出为txt时,怎么处理PDF两列内容

前提:已用ABBYY初步OCR,Adobe Acrobat PDF Pro能检索PDF内容。如图:


问题:我想导出PDF为txt的时候,其内容是按列从上往下排的,而不是左右的。 你们是怎么解决的呢,真心求教,谢谢。

我是没有办法。

谢谢花大回复,我是Freemdict的超级粉丝哈哈哈哈

用ABBYY,不要用acrobat。
这种两列格式要在导出的选项里边选择 格式化文本
这样导出的两列数据中间的分隔即是tab

2 个赞

成功,感谢,万分感谢!!!

太好了!不客气的!

1 个赞

任何两列都行吗?词典那种两列 三列能不能导出来?

请问那种两列的词典,有没有办法变成上下一列(每一页右列接在左列下面)呢?

这个Adobe能解决:1.剪切——提取页面——另一半剪切——提取页面2.重命名 前半部分1.3.5.7…后一半2.4.6.8…3.放到一个文件及,在Adobe中合并。(可以先把页眉页脚都剪掉)

刚才那个特殊,本在一个文本框中。我已经找到这种解决办法了。在ABBYY中识别区域设置为全选,应用于全部页面,再识别,就是左右识别了。

校对完可以整理成MDX了哈哈哈

两列效果最好,多于两列,比如四列,导出的格式容易错乱,容易出现右边的两列混入左边,要么干脆没被识别。列数多的话,我一般用scantailor先批量切几次,处理成两列的,然后识别。

可是Adobe里面没有这个工具啊,搜不到类似另一半剪切的东西,也不能批量切除页眉页脚,不知道有没有其他的软件?

用ABBYY两列的不用切吧,两列图片PDFocr后有除页眉页脚,然后一列文本显示一直没出过啥问题啊。

abbyy有保留或不保留页眉页脚这个选项的

两列当然不用切,识别之后就是tab分割的两列数据

为啥保存成txt,反正要做成mdx,直接存成网页,标签格式都保留得好好的,连css都给你弄现成的。
校对完直接提出词头引入css就完事了。
ocr后弄成mdx真的太方便了,唯独校对纠错是个事。

嗯嗯,怎么省事怎么来好了