请教,这个pdf文件文字可以复制,但是太大,一万多页,有没有办法只提取最上面的词条和页码?
感谢,有空的时候试试
自动切页眉并拼接并OCR,我写过脚本。不过,一万多页的书没有索引吗,提取或OCR索引不来得更快。
索引只有少量,不全,就是这个:McGraw Hill Science and Technology Encyclopedia PDF
这书很不错,大佬有空可以试试
1 Like
这本书的数据已经上线了,基于第11版并且有持续的线上更新,订阅制的服务
噢,谢谢提供的信息,网站打不开,不过能打开还是不如本地化方便,再想想办法
Anns馆有第11版的PDF,其中第20卷是索引,有兴趣可以用来做本地的:
好的,感谢,我看看