xuhuaq
1
2026.4.9 更新:补全完整 英文第三版 2005 OCR 原始文件,一共1682页,1682个txt文件,已核对完整性,未核对内容(用最新ai OCR的,质量应该是有保证的)。
LDELC_3rd_2005_en_OCR_txt.zip (6.2 MB)
2026.4.9 同时更新:简体中文2004年商务印书馆版 OCR 原始单txt文件,从词头第一页也就是31页到2252页。
LDELC2004商务版(对应英文2002版).zip (9.1 MB)
Ai OCR 的效果真不错
Ai 转换为 jsonl格式
jsonl格式转换为easydict词典
4 Likes
双语版和英英版不冲突,况且双语版是没公开分享的
英英版好像还没人做过
xuhuaq
9
双语版是纸质词典OCR开始制作的还是基于电子数据?
W2K
14
1)这个登入后50頁/天(free)
2)JSON结果用批处理很容易分开左栏、右栏
3)你看中文能灌进去么?
wordslist - 001–500.txt (4.8 MB)
karx
15
你好,反馈个问题
剑桥词典的这个more_examples和sense并列了
正确位置应该是放在sense里的data里
又或是说,这个词典结构就需要如此?
以及group_name的字段不用加粗,软件会自动给他分配600字重的
xuhuaq
20
Longman dictionary of English language and culture 这个词典还没制作出来。
上图的是另外一部词典CECD 剑桥,从mdx转的
1 Like