《牛津现代英汉双解大词典(第12版)》OCR文本数据

现在有了新版校对工具,之前很多比较麻烦的大型词典也比较容易处理了。用gemini,quark和paddleocr分别识别了3个版本,可以直接导入校对工具使用,paddleocr的数据是带文本位置的原始数据。

设置如图:

pdf是这个版本:

COECD_gemini.txt (16.6 MB)
COECD_quark.txt (15.9 MB)
COECD_paddleocr.7z (15.6 MB)
Concise Oxford English-Chinese.docx (15.2 MB)

app的词头数据:
oxford_concisedict.dict.zip (7.4 MB)

9 Likes

请问哪一个识别准确率更高呢?

文本本身错误很少,主要是格式,标点,音标和特殊标记。gemini的版本是可以识别粗体的,但是有很多地方不准确,音标和特殊符号paddleocr更好,中文夸克好一点。

迟到的礼物。网上流出的cod12 PDF部分字迹模糊,ocr效果差,模糊部分直接被无视了(合合),造成缺漏很多。前面求助未得回应。后面用者应感谢兄台的付出。

加个配置导出功能么,你弄的项目别人直接一键导入用

可以,不过现在没要求文件都在一个目录,可能需要复制一份文件然后转换成相对路径。