不知道各位好汉，用什么方式和框架解析pdf

random · 2024 年8 月 17 日 10:43

用过谷歌的PDF解析和合合的PDF解析。

合合：page级别，直接生成markdown格式（只支持黑体识别，不支持颜色识别），可以转换为HTML。准确度挺好，尤其是中文的准确度。缺点：复杂排版合合不太行。中英文符号不区分，比如英文()识别成中文（），乱加空格和删空格，导致后期人工校对成本巨高。

下面这个是用合合的PDF解析制作的，中文准确度如何，可以从这个瞥见一二：

谷歌：token级别，直接给字体的样式数据，需要自己根据样式（不仅支持黑体识别，还支持颜色识别）去生成HTML，灵活性更高一些。缺点：因为是token级别，有时候个别token的样式识别的不太准确，导致同类样式不连续。

p.s. 谷歌开启这个功能后，价格飙升了4倍… 一开始没注意，后来发现费用怎么这么高，才发现这个功能是额外收费的… 涨价后就跟国内的这些服务差不多了。