《拉鲁斯法汉双解词典》 文本数据(OCR)

我初步拟定一个设想的校订规划吧,这里面需要先后步骤,次序错了有的工作也许就等于白做。

1)对比图像(也可以双文本对校)核定每页起始文字是否正确,是否有文本丢失问题,大致确定是否页面出现了模型幻觉。这一条保证词头、释义文本的完整性,无遗漏,无错位。目前我检查了800多页。

2)批量修改括号错误、不匹配等问题。

3)校订❶❷❸❹❺◆◇→这些特殊符号。

4)通过对比网上扒来的拉鲁斯数据校正音标。

5)全面双文本、三文本互校。

6)人工检查扫尾。

7)格式化数据,加html标签,为制作mdx词典做准备。

8)其他未尽事宜。

你看看有没有什么需要改进或者补充的地方?