不知道各位好汉，用什么方式和框架解析pdf

hereissun · 2024 年8 月 17 日 07:36

以前在别的论坛上，偶尔遇到过这样的问题，但那时ai还没兴起，全行业也没啥ai的概念，自己手动用一些当时的框架解析pdf的话，难度基本上相当于自己写个浏览器解析html的视觉呈现效果，脑补一下，根据某个网站，你自己根据网站效果，逆向解析出来html文件是啥难度吧，正经八百的解析个pdf当年的技术框架，大概也就是这样的事儿，当时比较成型的框架，感觉也就是输入端的nltk这块，其他的都不行，现在方方面面的都是ai，不知道目前，结合ai的话，各路好汉，都用什么解析pdf。我自己的二手洋垃圾主机，一不小心上的还是amd的580显卡，u也是志强的e2678v3，是属于干点儿啥都不耽误，但正经八百的跑点儿啥，显卡不行，啥啥都别惦记的。

nyyb · 2024 年8 月 17 日 07:57

解析pdf主要用来做啥呢？pdf规范文档都挺厚的，自己写解析很难。可以用现成的库mupdf
c++ ，pdf.js js的，都算是pdf的渲染引擎

hereissun · 2024 年8 月 17 日 09:28

现成的库，弄出来的效果，很大程度上都是基于背后绑定的ocr的战斗力。对于一些格式不是很复杂，也并不是很花哨的，而且数据之间比较有规律的，类似电子字典这样的东西，有个好点儿的解析工具，能省去不少校对的工作，折腾mdx，程序啥的都不复杂，真正折磨人的，都是一些鸡毛蒜皮的鸡零狗碎的东西。想象一下，目前的ai水准，这么吃数据的，用来训练的数据，都哪儿来的吧？应该都是有相当一部分是pdf格式的，人家巨头们，都已经应该实现了工业化流水线层面的，给这么多历史积累下来的pdf折腾成模型可以处理的干净的txt格式，感觉就目前的ai水准，应该对于解析个pdf啥的不算啥太大的难事儿。

random · 2024 年8 月 17 日 10:43

用过谷歌的PDF解析和合合的PDF解析。

合合：page级别，直接生成markdown格式（只支持黑体识别，不支持颜色识别），可以转换为HTML。准确度挺好，尤其是中文的准确度。缺点：复杂排版合合不太行。中英文符号不区分，比如英文()识别成中文（），乱加空格和删空格，导致后期人工校对成本巨高。

下面这个是用合合的PDF解析制作的，中文准确度如何，可以从这个瞥见一二：

谷歌：token级别，直接给字体的样式数据，需要自己根据样式（不仅支持黑体识别，还支持颜色识别）去生成HTML，灵活性更高一些。缺点：因为是token级别，有时候个别token的样式识别的不太准确，导致同类样式不连续。

p.s. 谷歌开启这个功能后，价格飙升了4倍… 一开始没注意，后来发现费用怎么这么高，才发现这个功能是额外收费的… 涨价后就跟国内的这些服务差不多了。