词典的图像底本不大清晰,不过Gemini 2.5 Pro依然可以达到比较高的识别正确率。我粗略检查过,做成词典的话应该算基本可用。
因为额度限制问题,正在陆续OCR当中,先放出前750页(正文共2057页)的文本数据,供大家批评指正,看下有什么可以改进的余地。
词典已经OCR完毕,大概有400-500万字,尚需要进一步整理校核,比如像前后页接续的地方容易出问题,遗漏少量文本,音标错误,文字讹误等。
为了方便多人协作改进文本质量,在github建了一个repo,它的更新比较及时: GitHub - mahavivo/larousse: 拉鲁斯法汉双解词典
拉鲁斯法汉双解词典 文本.txt (11.6 MB)(2025-09-10版)
10 个赞
这本词典我记得论坛有mdx版啊,然后也有外研社和商务印书馆两个版本,外研社是01年的,商务印书馆的是14年,不知道有什么区别。
论坛上已有的是图片版mdx词典。
外研社和商务印书馆的都叫拉鲁斯法汉词典,但依据的原始底本不同:
1)商务印书馆:
本词典是一本深入学习法语语言的工具书,收录了35000个单词及词汇,按照字母表顺序
排列,每个词条里注有丰富的词义、短语及表达法,为语言的正确使用提供了完整丰富的信息。
体例说明
《拉鲁斯法汉词典》(法法·法汉双解)的法文蓝本是拉鲁斯出版社1994年出版的《法语词典》
( Dictionnaire de français)。
2)外研社:
前言
经过四年多的努力,《拉鲁斯法汉双解词典》终于与读者见面了。该词典的法文原版是拉鲁斯出版社于1995年出版的《法语词典》(DICTIONNAIRE DE LA LANGUE FRANÇAISE)。这是一部中型词典,共38000 词条,含50000个同义词及20000条短语。
1 个赞
哦我找了下论坛那个好像是基于在线版的:
这个版本缺很多词条。
然后商务印书馆版本和外研社版本我下载了比较发现解释和例句都不一致,外研社版的词条更多那看来还是有做的价值的。
我正好写了个多个来源的文本校对工具,可以拿这个试试。
词典已经OCR完了,大概有400-500万字,不过我尚需要对它进一步整理粗校,像页码衔接的地方特别容易出问题,遗漏少量文本等。
先把未整理的原始OCR文本稿全部传上来,慎用,主要供批判。
更新见主帖。
音标里的“-”没有错,是承前省略重复音标内容的意思。
400-500万字的文本,我个人一一校对是不可能的了,只要大致可用,没有太明显的错误即可。
偶尔这种错误没什么,主要是图像里的污点干扰导致的,不是很常见。大模型比较智能,一般来说有很强的黑边、污损等抗干扰能力。
都是很minor的问题了,主要是因为图像底本的清晰度不佳。所以识别的技术条件去年就差不多了,但我一直搁置没干。
但不勉强干也不行,没人从天上给掉馅饼,重新扫描一个清晰图像版,或者出版社干脆把印前文本给放出来。
增上慢
23
只是识别,又不是翻译,肯定都是些minor的识别问题呀。
我看了下注音错误很多,而且也有大模型幻觉自己编的情况。 整理了一下格式,主要修复了注音方括号的问题,还有转义缺少箭头的问题。然后写了个python脚本解决跨页问题,把这个切分成了json文件,实际条目不够38000条。另外再提供一个夸克识别的版本,质量也还行,是docx,分割500页处理的,docx是带格式的,也需要写程序处理。
我感觉弄2-3个版本的文本然后分块对比校对比较好。
拉鲁斯法汉双解词典 整理.zip (19.3 MB)
1 个赞