这本应该是目前最新的俄汉大型词典了,我也是用了很长时间才ocr完成,然后已经进行过缺页和对比检查。 本词典也有残缺的xml数据,进行对比合并后应该可以制作mdx。
新时代大俄汉词典_gemini.zip (9.8 MB)
新时代大俄汉词典_quark.docx (16.4 MB)
这本应该是目前最新的俄汉大型词典了,我也是用了很长时间才ocr完成,然后已经进行过缺页和对比检查。 本词典也有残缺的xml数据,进行对比合并后应该可以制作mdx。
新时代大俄汉词典_gemini.zip (9.8 MB)
新时代大俄汉词典_quark.docx (16.4 MB)
感谢楼主!请问能分享一下词典OCR的工作流吗?
我现在是先分割pdf,然后调用gemini api或者cli来分部分ocr(api现在pro模型不免费了,ocr词典一本要几十刀,不值得),然后检查缺页合并。如果要检查幻觉,还需要额外步骤,就是也用夸克转换word功能处理一遍,如果过大也需要切分然后合并,然后docx转换为分页的txt,和gemini数据进行逐页对比计算相似度,相似度低于某个值也和缺页一样补数据,有时候要补好几次才正常。其中分割合并还有查错我都写了脚本,但具体怎么分割,写提示词,然后数据页码对应之类的问题都需要人工检查。
请问有现成的提示词和脚本吗?
幻觉严重吗?是否已修正?
前期拆分pdf和后期检查的脚本:
split_pdf.py (4.5 KB)
ocr_result_check.py (7.1 KB)
提示词每个都不同,我现在是切分词典到pdf目录,然后安装gemini cli,然后直接用命令行处理的:
for /L %%i in (1 1 116) do (
gemini “这是一本俄语词典中的内容,希望识别全部文本,每个词条识别为一行,也就是原书单词每个词条因为版面限制换行的地方输出时不换行,每个单词输出完后空一行。注意以下几点:每一页有页眉,表示起止单词,中间是表示页码的阿拉伯数字,把页码作为分页符放入尖括号<>中,忽略起止单词,在每页开始时候输出,若没有页码则输出<?>。词典分为两栏,需要按从左到右顺序识别,最左栏开头不是词头而是接着上一页的情况下原样输出,不能忽略这部分,左栏和右栏之间如果是同一个词条则需要合并。每个词条词头和一些其他部分是粗体表示的,用markdown形式**输出。词典中不同释义序号由黑色的❶❷❸表示,序号很重要,要正确输出,不能替换为其他符号。要尽可能多输出内容,需要识别pdf全部内容,不可在中途停止,也不可输出原文没有的内容。注意要直接输出文本,不可调用write_file之类的工具,也不要写代码处理。 @./pdf/新时代大俄汉词典_%%i.pdf” -m gemini-2.5-pro > “./txt/新时代大俄汉词典_%%i.txt”
)
这个幻觉不严重,是修复了的。
好的。辛苦了。
上线了一个网站: 环俄网俄语词典