《法汉大辞典》OCR 文本数据

这本应该是规模最大的法汉词典,现在也已经绝版了。据说有12万词条,目前我已经用Gemini OCR了一遍,还没进行幻觉错误检查。这次让gemini把大的词意分开了,而且每个词头都加了标记,不过有点地方还是有错,这个以后慢慢改吧。

夸克识别版本:
法汉大词典 (上册).docx (12.3 MB)
法汉大词典 (下册).docx (12.7 MB)

Gemini识别版本:
法汉大词典(上册)_gemini.txt (13.7 MB)
法汉大词典(下册)_gemini.txt (14.0 MB)

7 个赞

辛苦了,虽然主要是机器干活,但实际用 LLM 做过这种大部头ocr的,都知道人要付出不少精力和时间才能搞定。

这本书有法文原版的 mdx 吗?

这种肯定是参考一大堆词典编撰的词典啊,和英汉大词典同理,都是译文社弄的大型词典。

1 个赞

参考文献列了一堆,但说是罗贝尔授权,估计主要用的罗贝尔的。

1 个赞

这本有不少拼写错误来着,不过有辨析功能
单论正确率,新颖,还有文学词汇的话,外研社的新世纪法汉大词典更好些

那本我看有app了,也有人做过了。

没见过帖子啊,估计内部分享的吧:joy:

新世纪法汉大词典和小罗贝尔关系比较紧密,很多词条是直接翻译的。法汉大词典看不出来,但是科技类词汇多些。

这个帖子里面,不过应该是没分享。

展示区的约等于没有:joy:

Gemini识别的有一些幻觉,比如第二页的à。夸克识别的一些法语单词之间没有空格。

好词典,功德无量!

这个是之前有自动对比检查工具之前ocr的,现在已经可以通过对比识别大部分幻觉问题,这是修正后的文本,夸克也转成了文本格式。

法汉大词典(上册)_gemini.txt (13.9 MB)
法汉大词典(下册)_gemini.txt (14.4 MB)
法汉大词典(上册)_quark.txt (14.0 MB)
法汉大词典(下册)_quark.txt (14.4 MB)

1 个赞