《拉鲁斯法汉双解词典》文本数据（OCR）

mixivivo · 2025 年9 月 4 日 13:56

我初步拟定一个设想的校订规划吧，这里面需要先后步骤，次序错了有的工作也许就等于白做。

1）对比图像（也可以双文本对校）核定每页起始文字是否正确，是否有文本丢失问题，大致确定是否页面出现了模型幻觉。这一条保证词头、释义文本的完整性，无遗漏，无错位。目前我检查了800多页。

2）批量修改括号错误、不匹配等问题。

3）校订❶❷❸❹❺◆◇→这些特殊符号。

4）通过对比网上扒来的拉鲁斯数据校正音标。

5）全面双文本、三文本互校。

6）人工检查扫尾。

7）格式化数据，加html标签，为制作mdx词典做准备。

8）其他未尽事宜。

你看看有没有什么需要改进或者补充的地方？

《拉鲁斯法汉双解词典》 文本数据（OCR）