《拉鲁斯法汉双解词典》文本数据（OCR）

mixivivo · 2025 年9 月 4 日 13:19

不客气地说，你已干的这些都是无用功，因为软件/机器干得更好、更快、更全，批量是几十几百几千几万，效率更高。我有一个倒是真需要人肉挑错的文本，《中国古代史教程》朱绍侯、龚留柱主编（TXT、双层PDF版），机器干的部分结束了，需要读通，可惜没人愿意做这个工作。

增上慢 · 2025 年9 月 4 日 13:20

删除zsbd

增上慢 · 2025 年9 月 4 日 13:28

删除zsbd

last_idol · 2025 年9 月 4 日 13:33

有三份不同来源的文本行做对比就可以了，来源越多越准确，都不一致的情况下再人工校对。

wynick27 · 2025 年9 月 4 日 13:36

我觉得 mixivivo说的没错，括号不匹配问题我随便写了个程序就查出来1594处，然后再根据特点批量替换就行，人工校对应该是这些都处理完最后再来做。

mixivivo · 2025 年9 月 4 日 13:56

我初步拟定一个设想的校订规划吧，这里面需要先后步骤，次序错了有的工作也许就等于白做。

1）对比图像（也可以双文本对校）核定每页起始文字是否正确，是否有文本丢失问题，大致确定是否页面出现了模型幻觉。这一条保证词头、释义文本的完整性，无遗漏，无错位。目前我检查了800多页。

2）批量修改括号错误、不匹配等问题。

3）校订❶❷❸❹❺◆◇→这些特殊符号。

4）通过对比网上扒来的拉鲁斯数据校正音标。

5）全面双文本、三文本互校。

6）人工检查扫尾。

7）格式化数据，加html标签，为制作mdx词典做准备。

8）其他未尽事宜。

你看看有没有什么需要改进或者补充的地方？

增上慢 · 2025 年9 月 4 日 14:14

删除zsbd

wynick27 · 2025 年9 月 4 日 14:17

这个流程和我想的差不多，我已经改了一部分括号匹配问题，下面主要工作是找图片坐标，但我感觉最好统一一下pdf版本，我这里下的版本是没有前面的说明的，第三页就是正文。

endnote · 2025 年9 月 4 日 14:17

这是个不错的思路：
用另外一个有OCR功能的大模型再从头到尾OCR一遍，然后用程序逐字节比较两个OCR结果，高亮出不同部分、以便校对。

不同LLM针对不同语种的OCR能力有差别。OCR中文古籍这一块，我觉得豆包不错。

mixivivo · 2025 年9 月 4 日 23:16

一个比较大的更新，把下面页面都替换成了重新识别的文本：P 1029,1100,1111,1117,1148,1155,1168,1175,1207,1217,1231,1251,1355,1364; P 1551-1575(1552,1562,1567,1568,1570,1574); P 1621,1647,1677,1873,1907,1958 。

不知道具体原因为何，发现1000页以后模型的幻觉更多，由于是不同批次、时间识别的，可能是因为换了api key，也可能是因为拥堵、模型超载，结果调用到了劣质的模型。总之感到在图像底本不佳的情况下OCR数百万字的复杂文本问题比较多，不是想象的那么顺畅，我以前用Gemini 2.5 Pro从没碰到过比例这么高的幻觉错误。

但是OCR这本拉鲁斯法汉双解词典，还是得依赖Gemini模型为主力，它识别外文更准确，中文也不错，图像看不清，以其“智力”也能猜对；如果法文部分错误也很多（比如夸克ocr的结果），后续会更难处理。

xliley · 2025 年9 月 5 日 06:46

有人有自行高清扫描版本的，3个G的版本，我不慎找不到了。用那个版本ocr是不是会好些

last_idol · 2025 年9 月 5 日 07:30

楼主用的哪个底本？我有 1.3G 的单栏版。不知道是不是同一来源，你看看行不行，要行我就发上来。

m-larousse-0049.png.zip (1.0 MB)

wynick27 · 2025 年9 月 5 日 07:37

什么年代的版本，我看了网上基本都是初版，后来12年和24年都出了新版，不知道改了什么。

mixivivo · 2025 年9 月 5 日 08:11

谢谢了，这个清晰度也不行，而且实际上是商务印书馆出的另一个版本，法文底本不同。

mixivivo · 2025 年9 月 5 日 08:19

有高清图像自然是最佳之选，我在ocr前到处搜索过，没找到比我手头上更清晰的版本。我用的pdf是从早年下载的300 dpi PDG转化来的，不是自anna’s这些网站下载，所以跟 @wynick27 找到的底本不同，有完整的前言凡例等内容。

mixivivo · 2025 年9 月 5 日 08:22

贴一张 p49 的示例图片。

像这里 aisance 的音标，谁都看着是 [ezās]，模型把它识别错，也是情理当中。

mixivivo · 2025 年9 月 5 日 11:23

这部分基本干完了，如果有未处理干净的，后续发现了可以继续修。因为替换了不少页面，则需要@wynick27 兄重走一遍修正“音标括号、→”的流程。

下面的2）、3）都可以启动了。我准备一下拉鲁斯官网的音标数据，扒的速度比较慢，目前搞了一半17000多条。

增上慢 · 2025 年9 月 5 日 12:49

删除zsbd

增上慢 · 2025 年9 月 5 日 13:09

删除zsbd

增上慢 · 2025 年9 月 5 日 13:18

删除zsbd

《拉鲁斯法汉双解词典》 文本数据（OCR）

《拉鲁斯法汉双解词典》文本数据（OCR）