我初步拟定一个设想的校订规划吧,这里面需要先后步骤,次序错了有的工作也许就等于白做。
1)对比图像(也可以双文本对校)核定每页起始文字是否正确,是否有文本丢失问题,大致确定是否页面出现了模型幻觉。这一条保证词头、释义文本的完整性,无遗漏,无错位。目前我检查了800多页。
2)批量修改括号错误、不匹配等问题。
3)校订❶❷❸❹❺◆◇→这些特殊符号。
4)通过对比网上扒来的拉鲁斯数据校正音标。
5)全面双文本、三文本互校。
6)人工检查扫尾。
7)格式化数据,加html标签,为制作mdx词典做准备。
8)其他未尽事宜。
你看看有没有什么需要改进或者补充的地方?