Assimil Le Sanskrit sans peine 梵语pdf识别

Hannibal · 2025 年11 月 26 日 03:40

一本梵语教材，我本来是把他给gemini识别的，但发现识别下来都是乱码。

仔细看下来，用edge、chrome打开这个pdf能正常显示，其他都不行，转成图片也不行。

有人能看看吗

edge、chrome、wps上的效果如下

别的软件（pdf exper, preview app等）如下

mixivivo · 2025 年11 月 26 日 05:53

它是一份双层pdf文件，但制作比较失败，文本层的梵文没有正确识别，图像层的渲染在有的软件里也有问题（标准测试应该是用 adobe 的官方软件打开，其他pdf阅读软件未必实施了pdf的全部规范）。

用python的fitz（PyMuPDF）库把图像提取出来，重新生成合并一遍pdf就行了，然后用ABBYY finereader，选择法文、梵文ocr，再生成双层PDF。

这种书双色印刷，格式复杂，插图、表格很多，直接用添加了文本层的pdf就很好，我不觉得有什么提取纯文本的必要。

Hannibal · 2025 年11 月 26 日 06:07

多谢，我会动手尝试

Hannibal · 2025 年11 月 26 日 22:49

识别完了，我不懂梵语。

看起来识别率是不错的，不过我分了四次才识别完，所以第*页会不准。

assimil的书有个好处，配有品质较好的音频，音频我不放上来了，留心就能找到。