求助：PDF导出为txt时，怎么处理PDF两列内容

freeeMdict · 2020 年8 月 30 日 03:56

前提：已用ABBYY初步OCR，Adobe Acrobat PDF Pro能检索PDF内容。如图：

问题：我想导出PDF为txt的时候，其内容是按列从上往下排的，而不是左右的。你们是怎么解决的呢，真心求教，谢谢。

hua · 2020 年8 月 30 日 03:59

我是没有办法。

freeeMdict · 2020 年8 月 30 日 04:38

谢谢花大回复，我是Freemdict的超级粉丝哈哈哈哈

hkreporter · 2020 年8 月 30 日 05:11

用ABBYY，不要用acrobat。
这种两列格式要在导出的选项里边选择格式化文本
这样导出的两列数据中间的分隔即是tab

freeeMdict · 2020 年8 月 30 日 05:28

成功，感谢，万分感谢！！！

hkreporter · 2020 年8 月 30 日 05:29

太好了！不客气的！

hua · 2020 年8 月 30 日 07:04

任何两列都行吗？词典那种两列三列能不能导出来？

qujinzhi · 2020 年8 月 30 日 08:24

请问那种两列的词典，有没有办法变成上下一列（每一页右列接在左列下面）呢？

freeeMdict · 2020 年8 月 30 日 08:55

这个Adobe能解决：1.剪切——提取页面——另一半剪切——提取页面2.重命名前半部分1.3.5.7…后一半2.4.6.8…3.放到一个文件及，在Adobe中合并。（可以先把页眉页脚都剪掉）

freeeMdict · 2020 年8 月 30 日 08:59

刚才那个特殊，本在一个文本框中。我已经找到这种解决办法了。在ABBYY中识别区域设置为全选，应用于全部页面，再识别，就是左右识别了。

校对完可以整理成MDX了哈哈哈

hkreporter · 2020 年8 月 31 日 00:30

两列效果最好，多于两列，比如四列，导出的格式容易错乱，容易出现右边的两列混入左边，要么干脆没被识别。列数多的话，我一般用scantailor先批量切几次，处理成两列的，然后识别。

qujinzhi · 2020 年8 月 31 日 01:38

可是Adobe里面没有这个工具啊，搜不到类似另一半剪切的东西，也不能批量切除页眉页脚，不知道有没有其他的软件？

W2K · 2020 年8 月 31 日 02:16

用ABBYY两列的不用切吧，两列图片PDFocr后有除页眉页脚，然后一列文本显示一直没出过啥问题啊。

hkreporter · 2020 年8 月 31 日 02:28

abbyy有保留或不保留页眉页脚这个选项的

hkreporter · 2020 年8 月 31 日 02:28

两列当然不用切，识别之后就是tab分割的两列数据

W2K · 2020 年8 月 31 日 02:41

为啥保存成txt，反正要做成mdx，直接存成网页，标签格式都保留得好好的，连css都给你弄现成的。
校对完直接提出词头引入css就完事了。
ocr后弄成mdx真的太方便了，唯独校对纠错是个事。

hkreporter · 2020 年8 月 31 日 02:51

嗯嗯，怎么省事怎么来好了