一本梵语教材,我本来是把他给gemini识别的,但发现识别下来都是乱码。
仔细看下来,用edge、chrome打开这个pdf能正常显示,其他都不行,转成图片也不行。
有人能看看吗
edge、chrome、wps上的效果如下
别的软件(pdf exper, preview app等)如下
一本梵语教材,我本来是把他给gemini识别的,但发现识别下来都是乱码。
仔细看下来,用edge、chrome打开这个pdf能正常显示,其他都不行,转成图片也不行。
有人能看看吗
edge、chrome、wps上的效果如下
别的软件(pdf exper, preview app等)如下
它是一份双层pdf文件,但制作比较失败,文本层的梵文没有正确识别,图像层的渲染在有的软件里也有问题(标准测试应该是用 adobe 的官方软件打开,其他pdf阅读软件未必实施了pdf的全部规范)。
用python的fitz(PyMuPDF)库把图像提取出来,重新生成合并一遍pdf就行了,然后用ABBYY finereader,选择法文、梵文ocr,再生成双层PDF。
这种书双色印刷,格式复杂,插图、表格很多,直接用添加了文本层的pdf就很好,我不觉得有什么提取纯文本的必要。
多谢,我会动手尝试
识别完了,我不懂梵语。
看起来识别率是不错的,不过我分了四次才识别完,所以第*页会不准。
Assimil-le-Sanskrit-sans-peine.txt (1.4 MB)
assimil的书有个好处,配有品质较好的音频,音频我不放上来了,留心就能找到。