J̥H́-交流 - 词典软件词库制作之文字版PDF文字提取或图片版OCR结构化文本生成


20200608, for those who want to know more about pdf to html

pdftotext --bbox-layout, tesseract tsv


这个帖子说来也是讽刺哦。刚入隔壁论坛的时候不懂环境,发了这样一个帖子,然后因为论坛戾气确实太重,所以也没讨论出个结果。现在,我自己都看不到自己的帖子内容了。(数据并不属于用户,当然这个在国内很常见,虽然在欧洲是不合法的。)

言归正传吧,发这个主题帖是因为看到了大伙儿在 求 读者文摘 英文字用法指南.pdf 这里讨论文字版pdf转出结构化文本的探索。

大部分人可能只是用工具的伙伴,所以解决问题的办法通常就是逐一试验各个转换软件。
我自己比较喜欢寻根溯源,取法乎上,从标准入手,也希望给大家开开思路,希望一起讨论出接近完美的文字版pdf转结构化文本的方法吧。

据Wikipedia,有以下信息:


基于上图,应该是可以把文字同坐标及字体一起提取出来的。


但是,不得不承认,我自己也还投入不够,从Wikipedia上能看到的信息还不足够支持从源头解决问题,发个帖,算是学习的开始,日后会慢慢补充。


欢迎相关领域的有研究的朋友补充。

3 Likes

我觉得恐怕很难有个统一的解决方案。
首先是pdf的制作方式工具各式各样,因为pdf是个公开的规范,而且还有多个版本,单是阅读器都存在兼容性问题。
其次是文本本身的内容千差万别,除了文字的字体样式外,还有语言字体问题,纯英文文本还好办,说文解字文本pdf的转化难度可想而知。
最后转化结果是否格式化、哪些字段应该有标签是个主观的事情,达到理想目标往往不容易。

很可能只能case by case,首先是难度和目标不能太高,再一个很重要的是运气(希望转换成doc等格式能保留尽可能多的样式信息),最后最重要的是不断用正则表达式清洗数据、增加标签。

毕竟靠谱的文本都有了(最难的手打或者ocr省去了),剩下的其实就是持续不断地打磨了。

补充
如果终极目标是从文本pdf制作出完美mdx的话,可能讨论类似wiki那样的在线多人校对mdx工具更现实些?


当然,在线只是大家在同一个地方提交修改意见,平时使用当然可以自己用离线的mdx。
然后由主事人或专门编辑来裁定和控制版本,有异议的点可以展开讨论。

再或者,如果有所见即所得的离线编辑mdx工具也行。

我自己也回复一下吧。感觉技术类的帖子,很容易被遗忘。算是回复给对技术有热情的同好吧。提升技术才能有更好的作品。

其实优雅的转txt的方案还是有的,我就自给个引线吧 pdftotext --bbox-layout可以是个很有效的武器。

文字版获取的话,统一去掉页眉页脚,正则匹配去掉非必要换行。
在之后就是如何补入html关键字标签了。 我大概就是这么个思路

如果pdf 是从MS Word 转过来的,那么用MS Word 转回docx可能会保留很多样式信息,然后再转带标签的文本。

word文件其实并不好处理,其实核心还是最好文本是带坐标的,然后根据坐标就可以自动化处理了。切图词典也是,因为OCR工具足够强大,可以输出文字区的坐标,所以可以自动切图。pdf文字带坐标的时候,也就可以自动切出词条了,而且文字还是准确的。

标准明确很重要,比如“非必要的换行”这类标准,计算机程序还是很难判断的。但是如果有文字坐标的话,那就不一样了。

我遇到的包括一些图书ocr主要用来区分的就是结尾是否存在标点符号~