求哪位大神制作《牛津袖珍英汉双解词典》第11版的mdx

不好意思 我忘记要装插件这回事了

【插件更新】

非常感谢!已下载。

真的好喜欢这个词典,好像缺少“conscious”这个词,恳请大侠修补。

正在修补中,已修补,现有词条30933条

mdx下载
POED11-30933.zip (3.5 MB)

EasyDict词典商店已更新。

1 Like

已修补,现30933词条

感谢辛苦付出。是用的程序来查词头吗?查词头这种事,用什么程序来查都不可能保证百分百正确,因为你得先有一个准确的词表,这个词表还不能使用别的词典的词表,因为有拼法不同、选取范围不同等种种因素。人工过一趟pdf,怎么也得一两周,要是看纸质书就更慢了。就算没从 ocr 步骤开始做过的,想必也能想象到其背后的投入。本词典,我手上的是“新版”也就是 第八版 revised,正文 1353 頁, 还没算前言、使用说明、附录等内容。如要保证完美,需比对一遍(主要是比对词头)。可以慢慢做的,排错纠正,如厘清 krona 到 kronur 几个词条的关系。Pocket 是介于 Little 和 Concise 之间的一部中小型词典,可以弥补这个系列中的缺憾,制作出来为大功一件。

是的,目前都是用程序处理的,确实不完美,兼顾效率和可用性,暂时只能如此了,慢慢纠错慢慢完善。根据你提到的 krona 到 kronur ,又发现一些问题,正在修复中。

已修复以上已知问题,欢迎挑虫
现词条30873
帖子修改次数有限,以后更新文件都发布在

詞條Achilles heel查不到反而是heel呈現Achilles heel的內容, 麻煩查看一下,謝謝~

我目前ocr制作了很多词典,我的经验是不要让ai第一步就输出格式化内容,因为出错了不容易对比原pdf校对。而跨页文本,特殊符号这些非常容易出错,出错了手动改json也不好改,所以第一步输出和原书接近便于校对的格式,校对后再让ai格式化,而且格式化时要让ai检查格式,格式出错的输出位置手动检查。

1 Like

实作经验之谈啊,谢谢!最近我也是在测试各个模型和方法,确实如何校对纠错是个大问题,先OCR再格式化更保险,我目前正在实践的也是这种方式。让ai一步到位从图片到json内容是理想化状态。
就我最近的实践来看,模型的稳定输出是个最大的问题,模型再强但是发挥不稳定,带来的后续工作量一点不小。

我之前写了校对工具,我一直在用,你可以试试:

这个确实很特殊,短语形式,单词音标,后续修复

Achilles heel /ə’kɪli:z/ • n. a weak point 致命弱点

好的,谢谢。我前几天看到就下载了,逐字校对纠正,讲究!我还没学会使用 :downcast_face_with_sweat:

我自己先搞了个简单的校对工具,主要检查单页是否OCR完整。

怎么检查的?我之前是用两个版本对比相似度看有没有幻觉。

已修复,请重新下载。

按文件大小排序,从最小的开始检查,主要检查页尾。
至于幻觉问题,目前我还没发现,这个应该跟温度和提示词有关。我只发现了识别不完整的。
我用的umi-ocr,你用的哪个ocr工具?

我一般手动调用gemini cli

再回報一個問題, 在查head時, 裡面的片語看來是亂掉了, 真正的片語與解釋都混在一起了, 請您看一下~

1 Like

收到,待修复

1 Like