用gemini辅助处理试着做了个mdx
现代意大利语词典(意汉双解版)_排版v0.46.mdx (9.2 MB)
这本compatto我买了kindle电子书,您有什么办法做成mdx吗
提取出epub,就是HTML了直接就能做
什么格式的,如果是pdf或者epub是可以的。不过亚马逊好像不是所有书都能去drm转为epub的,kobo更容易提取epub。
这都2019年的老书了,随便去DRM的。只听说过新书有改DRM。
用检查工具查出了一些幻觉问题,这是新版文本:
Dizionario moderno Italiano_gemini.txt (13.9 MB)
您好,这里有一本A comprehensive etymological dictionary of the English – Klein, Ernest – New ed, 1979 – Elsevier Publishing Company的pdf版本,希望能够ocr一下,多谢了。
通过网盘分享的文件:A comprehensive etymological dictionary of the English – Klein, Ernest – New ed, 1979 – Elsevier Publishing Company.pdf
链接: 百度网盘 请输入提取码 提取码: wqgn
这个本身是文字版吧,不需要再ocr了
好,看错了,不好意思。
自己动手,丰衣足食;自己动不了手,不想动手,就不要要求那么多,想要这,想要那,任何人的时间和精力都是宝贵的。
具体到Ernest Klein的这本词源词典,我看了下,扫描图像质量比较差,又用了不少印欧语源的特殊字符,目前还没有OCR工具能够可靠识别处理。勉强识别得到错误较多的文本,还不如用加了文本层的图像pdf,复制出来错了也知道如何修正。
我一直赞成这一点。
同时,我也希望本论坛有更多使用AI批量进行翻译、OCR的技术讨论,让更多的人明白路径、以便自己去动手