有没有办法只提取pdf文件特定位置的文字

请教,这个pdf文件文字可以复制,但是太大,一万多页,有没有办法只提取最上面的词条和页码?

感谢,有空的时候试试

自动切页眉并拼接并OCR,我写过脚本。不过,一万多页的书没有索引吗,提取或OCR索引不来得更快。

索引只有少量,不全,就是这个:McGraw Hill Science and Technology Encyclopedia PDF
这书很不错,大佬有空可以试试

1 Like

这本书的数据已经上线了,基于第11版并且有持续的线上更新,订阅制的服务

https://www.accessscience.com

噢,谢谢提供的信息,网站打不开,不过能打开还是不如本地化方便,再想想办法

Anns馆有第11版的PDF,其中第20卷是索引,有兴趣可以用来做本地的:

好的,感谢,我看看