《现代意大利语词典》 OCR 文本(缺页已补)

用gemini辅助处理试着做了个mdx

现代意大利语词典(意汉双解版)_排版v0.46.mdx (9.2 MB)

4 Likes

这本compatto我买了kindle电子书,您有什么办法做成mdx吗

提取出epub,就是HTML了直接就能做

什么格式的,如果是pdf或者epub是可以的。不过亚马逊好像不是所有书都能去drm转为epub的,kobo更容易提取epub。

这都2019年的老书了,随便去DRM的。只听说过新书有改DRM。

用检查工具查出了一些幻觉问题,这是新版文本:

Dizionario moderno Italiano_gemini.txt (13.9 MB)

3 Likes

您好,这里有一本A comprehensive etymological dictionary of the English – Klein, Ernest – New ed, 1979 – Elsevier Publishing Company的pdf版本,希望能够ocr一下,多谢了。
通过网盘分享的文件:A comprehensive etymological dictionary of the English – Klein, Ernest – New ed, 1979 – Elsevier Publishing Company.pdf
链接: 百度网盘 请输入提取码 提取码: wqgn

这个本身是文字版吧,不需要再ocr了

好,看错了,不好意思。

您好,虽然这本书是文字版,但是复制出来的内容与原书还是有出入,您看看截图:



希望您抽空给OCR一下,多谢了。

自己动手,丰衣足食;自己动不了手,不想动手,就不要要求那么多,想要这,想要那,任何人的时间和精力都是宝贵的。

具体到Ernest Klein的这本词源词典,我看了下,扫描图像质量比较差,又用了不少印欧语源的特殊字符,目前还没有OCR工具能够可靠识别处理。勉强识别得到错误较多的文本,还不如用加了文本层的图像pdf,复制出来错了也知道如何修正。

我一直赞成这一点。

同时,我也希望本论坛有更多使用AI批量进行翻译、OCR的技术讨论,让更多的人明白路径、以便自己去动手