《精选双解西班牙语学习词典》 OCR文本(mdx已完成)

第二本使用新写的校对工具制作的词典,用之前的gemini文本,配合paddleocr的数据进行对比校对,得到的一校文本。

当前版本文本:
精选双解西班牙语学习词典_gemini.txt (3.9 MB)

对比用的paddleocr文本:
精选双解西班牙语学习词典_paddleocr.txt (3.7 MB)

paddleocr原始数据:
ocr_results.zip (11.2 MB)

图文对照版(直接用程序输出的,存在很多切图错误,大多是ocr匹配问题)
链接: 百度网盘 请输入提取码 提取码: 1234

效果:

部分切图错误案例:

修复了100多处序号格式错误,让ai写了个样式然后我稍微改了下,更新格式化的版本。
做了链接跳转和额外的词组和单词的索引

西语助手效果(黑暗模式):

当前版本文本和解析用脚本,mdx和css更新在主楼了,目前图片和变位表暂时没处理
原始文本和导出的json:
精选双解西班牙语学习词典_gemini.zip (3.3 MB)
解析脚本,运行得到mdx.txt
parse_dictionary.py (15.3 KB)

1 个赞