前提:已用ABBYY初步OCR,Adobe Acrobat PDF Pro能检索PDF内容。如图:
问题:我想导出PDF为txt的时候,其内容是按列从上往下排的,而不是左右的。 你们是怎么解决的呢,真心求教,谢谢。
前提:已用ABBYY初步OCR,Adobe Acrobat PDF Pro能检索PDF内容。如图:
我是没有办法。
谢谢花大回复,我是Freemdict的超级粉丝哈哈哈哈
用ABBYY,不要用acrobat。
这种两列格式要在导出的选项里边选择 格式化文本
这样导出的两列数据中间的分隔即是tab
太好了!不客气的!
任何两列都行吗?词典那种两列 三列能不能导出来?
请问那种两列的词典,有没有办法变成上下一列(每一页右列接在左列下面)呢?
这个Adobe能解决:1.剪切——提取页面——另一半剪切——提取页面2.重命名 前半部分1.3.5.7…后一半2.4.6.8…3.放到一个文件及,在Adobe中合并。(可以先把页眉页脚都剪掉)
两列效果最好,多于两列,比如四列,导出的格式容易错乱,容易出现右边的两列混入左边,要么干脆没被识别。列数多的话,我一般用scantailor先批量切几次,处理成两列的,然后识别。
可是Adobe里面没有这个工具啊,搜不到类似另一半剪切的东西,也不能批量切除页眉页脚,不知道有没有其他的软件?
用ABBYY两列的不用切吧,两列图片PDFocr后有除页眉页脚,然后一列文本显示一直没出过啥问题啊。
abbyy有保留或不保留页眉页脚这个选项的
两列当然不用切,识别之后就是tab分割的两列数据
为啥保存成txt,反正要做成mdx,直接存成网页,标签格式都保留得好好的,连css都给你弄现成的。
校对完直接提出词头引入css就完事了。
ocr后弄成mdx真的太方便了,唯独校对纠错是个事。
嗯嗯,怎么省事怎么来好了