用过谷歌的PDF解析和合合的PDF解析。
合合:page级别,直接生成markdown格式(只支持黑体识别,不支持颜色识别),可以转换为HTML。准确度挺好,尤其是中文的准确度。缺点:复杂排版合合不太行。中英文符号不区分,比如英文()识别成中文(),乱加空格和删空格,导致后期人工校对成本巨高。
下面这个是用合合的PDF解析制作的,中文准确度如何,可以从这个瞥见一二:
谷歌:token级别,直接给字体的样式数据,需要自己根据样式(不仅支持黑体识别,还支持颜色识别)去生成HTML,灵活性更高一些。缺点:因为是token级别,有时候个别token的样式识别的不太准确,导致同类样式不连续。
p.s. 谷歌开启这个功能后,价格飙升了4倍… 一开始没注意,后来发现费用怎么这么高,才发现这个功能是额外收费的… 涨价后就跟国内的这些服务差不多了。