不好意思 我忘记要装插件这回事了
【插件更新】
不好意思 我忘记要装插件这回事了
【插件更新】
非常感谢!已下载。
真的好喜欢这个词典,好像缺少“conscious”这个词,恳请大侠修补。
已修补,现30933词条
感谢辛苦付出。是用的程序来查词头吗?查词头这种事,用什么程序来查都不可能保证百分百正确,因为你得先有一个准确的词表,这个词表还不能使用别的词典的词表,因为有拼法不同、选取范围不同等种种因素。人工过一趟pdf,怎么也得一两周,要是看纸质书就更慢了。就算没从 ocr 步骤开始做过的,想必也能想象到其背后的投入。本词典,我手上的是“新版”也就是 第八版 revised,正文 1353 頁, 还没算前言、使用说明、附录等内容。如要保证完美,需比对一遍(主要是比对词头)。可以慢慢做的,排错纠正,如厘清 krona 到 kronur 几个词条的关系。Pocket 是介于 Little 和 Concise 之间的一部中小型词典,可以弥补这个系列中的缺憾,制作出来为大功一件。
是的,目前都是用程序处理的,确实不完美,兼顾效率和可用性,暂时只能如此了,慢慢纠错慢慢完善。根据你提到的 krona 到 kronur ,又发现一些问题,正在修复中。
已修复以上已知问题,欢迎挑虫
现词条30873
帖子修改次数有限,以后更新文件都发布在
詞條Achilles heel查不到反而是heel呈現Achilles heel的內容, 麻煩查看一下,謝謝~
我目前ocr制作了很多词典,我的经验是不要让ai第一步就输出格式化内容,因为出错了不容易对比原pdf校对。而跨页文本,特殊符号这些非常容易出错,出错了手动改json也不好改,所以第一步输出和原书接近便于校对的格式,校对后再让ai格式化,而且格式化时要让ai检查格式,格式出错的输出位置手动检查。
实作经验之谈啊,谢谢!最近我也是在测试各个模型和方法,确实如何校对纠错是个大问题,先OCR再格式化更保险,我目前正在实践的也是这种方式。让ai一步到位从图片到json内容是理想化状态。
就我最近的实践来看,模型的稳定输出是个最大的问题,模型再强但是发挥不稳定,带来的后续工作量一点不小。
我之前写了校对工具,我一直在用,你可以试试:
这个确实很特殊,短语形式,单词音标,后续修复
Achilles heel /ə’kɪli:z/ • n. a weak point 致命弱点
好的,谢谢。我前几天看到就下载了,逐字校对纠正,讲究!我还没学会使用 ![]()
我自己先搞了个简单的校对工具,主要检查单页是否OCR完整。
怎么检查的?我之前是用两个版本对比相似度看有没有幻觉。
已修复,请重新下载。
按文件大小排序,从最小的开始检查,主要检查页尾。
至于幻觉问题,目前我还没发现,这个应该跟温度和提示词有关。我只发现了识别不完整的。
我用的umi-ocr,你用的哪个ocr工具?
我一般手动调用gemini cli
收到,待修复