【疑难词目(词头/条头)索引制作求助】请各位前辈指教如何从这本《拉汉科技词典》提取词头和对应页码?

空格方面的问题比较多,个人认为对使用正则加标签以及多释义的换行之类的造成问题。以及释义跨行跨栏跨页没有ocr到一起,这样的问题也有。

行,我先看看OCR质量,处理试试,看有没有啥大问题,有大问题的话,也可以搞个粗校版用着先。

全球首发(纯吹牛的)
自制适用于Microsoft Word的拼写检查的词典,不可用于WPS Word。
拉丁语是古老语种,没有微软自带的,只好如此。可以覆盖20%左右的此词典词汇。(科技词这么多,无能为力啊)

Latin Spell Check

1 个赞

原来word中可以自定义拼写检查所用的词典,学习了。(“文件”→“选项”→“校对”→“自定义词典”)

但是,如果词汇覆盖率低(20%左右),是否会出现满屏红波浪的恼人场景呢?感觉可能对校对起到干扰作用。

做着玩的,没多大作用,好歹知道一些词肯定是对的。不过ocr正确率已经很高了,目前当务之急还是把文本修改得符合格式规范和变形处理吧。

我这么做也是提供一种思路,如果哪位大侠愿意从各种专科英语词典和维基百科中提取出单词加入到我做的这个里面,就能增加覆盖率,毕竟英语科技词也有很多直接拿拉丁语。不过也会导致拼写检查词典成分不纯,我也没这么干。
这上面提供的是一个初版,我之后再修订一下。

这本OCR校对,后来怎么样了,有没有后续?

我在校对中,别急,为各种日常事务所扰,进度有点慢,得明年了。也许会一直鸽,但会坚持的。

2 个赞

我在学习语法中,别急,为各种日常事务所扰,进度有点慢,得明年了。也许会一直鸽,但会坚持的。

1 个赞

这本OCR校对,后来怎么样了,有没有后续:cry:

这本词典用现在的技术来处理比较容易,选两家厂商,比如夸克和合合分别OCR,然后再补充第三种大模型OCR(例如Gemini 2.5 Pro),得到的三个文本对比互校,可以把错误率降到相当低。也不需要花2800元,或许280元即可,它是调用api的费用。

之前计算一部3000页的词典,用Gemini 2.5 Pro需要4500元左右。难道计算错了…
效果倒是非常哇噻,复杂排版能保留完整样式,准确率基本99.99%

它是按照 token 数量计算的,Gemini 2.5 Pro 大致百万 tokens 15美金,100元。3000页的词典(一般排版密集),可能有600万字符,粗略 6m tokens,那就是600元。

但如果真的制作,前处理和后处理也都有一些工序,大模型毕竟不是专门的OCR工具,需要调试prompt,输出也相对随意,随机,有时一个文件要多次识别,选一个满意的,有的格式不满足,后面手工编辑。可以用它选择性地做一些精品,并不适合大批量处理PDF。

合合最靠谱,识别准确率高,得到文本后要整理校对,各词条分行处理。一天大概能处理四五千词条,十一万词条二十天左右可完成,不过挺累人。注册送一千页免费额度,不够的话充9.9元再买一千页,足够了。

1 个赞

你忽略了思考代币(thinking token)。不开thinking效果要差很多

我的经验是 reasoning 对OCR、翻译这些相对直接简单的任务没太大帮助,适度启用就行了,比如说一次 OCR 20页,20000字,用1024个tokens让它重述指令,思考、规划一下,大致即可。不加节制地开启 reasoning,模型初始token输出的反应速度很慢,而且浪费钱,没啥必要。

Gemini 2.5 Pro 用于OCR,我发现有两个明显的毛病:一,经常默认输出半角的标点符号,prompt里写了中文用全角标点符号也不听;二,部分比较生僻的字不认识、识别错误,在这点上合合OCR、百度高精度OCR要稍强一些。就功能全面强大,指令写好了省心省事而言,专用的傻瓜式OCR模型是没法比的。

我是让它将图片直接转换为HTML(这应该也算OCR?)因为要加上字体样式标签和css,所以token量大增。另外转换HTML的时候不开启reasoning效果要差不少,尤其是复杂排版的内容

我觉得用现有的ocr软件就够了,llm本身感觉是不擅长处理复杂排版的。然后可以直接解析文本恢复结构,比直接生成html容易。

之前的链接好像失效了,我用夸克和CS扫描王分别识别了一遍。因为不是会员我只提取了文本,没有导出docx。CS扫描王应该存了带格式的原始识别结果的,如果利用这个再比较两个版本应该效果能比较好,我晚点研究一下。

两种OCR结果.zip (5.6 MB)