不知道各位好汉,用什么方式和框架解析pdf

以前在别的论坛上,偶尔遇到过这样的问题,但那时ai还没兴起,全行业也没啥ai的概念,自己手动用一些当时的框架解析pdf的话,难度基本上相当于自己写个浏览器解析html的视觉呈现效果,脑补一下,根据某个网站,你自己根据网站效果,逆向解析出来html文件是啥难度吧,正经八百的解析个pdf当年的技术框架,大概也就是这样的事儿,当时比较成型的框架,感觉也就是输入端的nltk这块,其他的都不行,现在方方面面的都是ai,不知道目前,结合ai的话,各路好汉,都用什么解析pdf。我自己的二手洋垃圾主机,一不小心上的还是amd的580显卡,u也是志强的e2678v3,是属于干点儿啥都不耽误,但正经八百的跑点儿啥,显卡不行,啥啥都别惦记的。

解析pdf主要用来做啥呢?pdf规范文档都挺厚的,自己写解析很难。可以用现成的库mupdf
c++ ,pdf.js js的,都算是pdf的渲染引擎

现成的库,弄出来的效果,很大程度上都是基于背后绑定的ocr的战斗力。对于一些格式不是很复杂,也并不是很花哨的,而且数据之间比较有规律的,类似电子字典这样的东西,有个好点儿的解析工具,能省去不少校对的工作,折腾mdx,程序啥的都不复杂,真正折磨人的,都是一些鸡毛蒜皮的鸡零狗碎的东西。想象一下,目前的ai水准,这么吃数据的,用来训练的数据,都哪儿来的吧?应该都是有相当一部分是pdf格式的,人家巨头们,都已经应该实现了工业化流水线层面的,给这么多历史积累下来的pdf折腾成模型可以处理的干净的txt格式,感觉就目前的ai水准,应该对于解析个pdf啥的不算啥太大的难事儿。

用过谷歌的PDF解析和合合的PDF解析。

合合:page级别,直接生成markdown格式(只支持黑体识别,不支持颜色识别),可以转换为HTML。准确度挺好,尤其是中文的准确度。缺点:复杂排版合合不太行。中英文符号不区分,比如英文()识别成中文(),乱加空格和删空格,导致后期人工校对成本巨高。

下面这个是用合合的PDF解析制作的,中文准确度如何,可以从这个瞥见一二:

谷歌:token级别,直接给字体的样式数据,需要自己根据样式(不仅支持黑体识别,还支持颜色识别)去生成HTML,灵活性更高一些。缺点:因为是token级别,有时候个别token的样式识别的不太准确,导致同类样式不连续。

p.s. 谷歌开启这个功能后,价格飙升了4倍… 一开始没注意,后来发现费用怎么这么高,才发现这个功能是额外收费的… 涨价后就跟国内的这些服务差不多了。

1 个赞