最近收集了小学中学高中的译林版英语课本,感觉书后的词汇表翻译质量比较高,而市面上高质量的简明英汉数据库质量良莠不齐.所以萌生把教科书的词汇表文本化的想法.
附上两个相关pdf文件和ocr后的文本文件,花费我一天的时间校对.
ocr后的文本文件是百度PaddleOCR+ABBYY FineReader16+ABBYY FineReader15的合并结果.因为音标识别率普遍偏低,所以音标删除,打算从牛津数据库直接提取
限于本人的认知和技术能力,无法进一步提高准确度,希望广大网友再接再厉,把这份词汇表文本化工作做到尽善尽美.
初中词汇.pdf (1.4 MB)
高中词汇.pdf (1.6 MB)
初中词汇.txt (74.9 KB)
高中词汇.txt (93.8 KB)