众包校对译林版初中高中词汇(最佳简明翻译数据库)

最近收集了小学中学高中的译林版英语课本,感觉书后的词汇表翻译质量比较高,而市面上高质量的简明英汉数据库质量良莠不齐.所以萌生把教科书的词汇表文本化的想法.
附上两个相关pdf文件和ocr后的文本文件,花费我一天的时间校对.
ocr后的文本文件是百度PaddleOCR+ABBYY FineReader16+ABBYY FineReader15的合并结果.因为音标识别率普遍偏低,所以音标删除,打算从牛津数据库直接提取

限于本人的认知和技术能力,无法进一步提高准确度,希望广大网友再接再厉,把这份词汇表文本化工作做到尽善尽美.

初中词汇.pdf (1.4 MB)
高中词汇.pdf (1.6 MB)
初中词汇.txt (74.9 KB)
高中词汇.txt (93.8 KB)

高中新版的7本书有官方公布的现成pdf文本格式,干嘛还要费这个劲?

1 个赞

把词汇表做成数据库,可以做很多事啊

我是说可直接复制粘贴成txt格式,用不着OCR这一步。

汉字和音标pdf没有文本

译林课本PDF方便分享吗

用这个下载,很方便。用前请杀毒。
萱乐电子教科书下载.rar (399.3 KB)

1 个赞