老话题看这里
ocr完成,手工修改完成,目前的状态是ocr微修的mdx完成,等待大佬出手让发音的英文版本加入中文配备字符,这样会更完美。
上图:
放上我ocr修改好的txt
total 000.txt (2.8 MB)
哪位大侠出手帮忙匹配下英文原版的中文吧。我能力有限,不会弄。
简单的只做了个mdx,ocr的错误肯定有点多,不介意的可以看看。
看得出来楼主付出了很大的努力。我理解楼主的需求是:以英文版为底本,把OCR的中文匹配进去,然后保留有音频功能。
希望有技术、家里有小孩需要学英语的出手助力一下。
楼主最好一并附上英文版、音频资源链接
我之前弄过一个技术验证的方案,不过没有完善:
牛津初阶英文光盘: Index of /dict_iso/oxford essential/
mdx 语音版本: [Oxford Essential Dictionary voice edition - 英英 - FreeMdict Forum]
(Oxford Essential Dictionary voice edition)
尝试对项目可行性和技术路线做个分析。这个项目可以有两个可行方案,一是把中文插入原英文版中,二是在双解版中插入音频和图片。考虑这两个方案的技术难度,认为第二个方案比较可行。方案二的简化方案是直接在词头下插入对应的音频,这个方案可直接在文本编辑器里实现,只要一个正则表达式替换就可以了(只插入单词音频,暂略去例句音频)。所见即所得,立马能得到自己盼望的词典。
第二个方案,就怕ocr的英文里错误较多,不太合适。还是希望采用第一个方案,有机会大侠帮忙匹配下中文。
非结构化文本匹配插入中文这种设想很美好,但在算法,实现难度上应该是错误的,勉强做到了,匹配不当、插入位置错误也不少,还不容易简单校正,等于在说,最后实际是请“大侠”花一周半个月时间帮我手工编辑修改《牛津初阶英汉双解词典》里的几千上万个编校失误之类,我怀疑本论坛有这样的热心者。
好像存在用这种方式制作完成的mdx词典,但从没见人公布简单易成且准确的配方。
牛津初阶的pdf底本图像质量尚可,多ocr引擎识别,然后文本对比校对,可能是更现实更快捷的处理方案。
自己做的ocr,质量如何心里有数,哪里有错也清楚。文本的准确度是需要自己去检查更正的,别人接手也需要做这些工作。哪本词典的背后不是日以继夜的辛苦劳作?你从文本orc到mdx转换,也做了很多工作,明白这个道理。所以第一步先要保证文本的正确性。逐条对照修正,一两周乃至一个月或更多时间的投入是需要的。如果现在还不能保证文本是准确的,做下去没有意义,发现有错还得重来。诚挚之言,不喜勿介。
用一个强ai,比如Gemini 3 Pro,让它对比拆分成的平行词条,然后插入相应的中文翻译,应该是可行的,但这需要上万次api调用,且也避免不了幻觉错误等。耗时漫长,且成本不菲,是否值得为比较小众的牛津初阶词典付出存疑。
不论使用什么办法,从头用图像提取文本制作比较可靠的较大体量词典都非易事,像《拉鲁斯法汉词典》,nick和我两个人编程、改错、编辑,整整干了两个月,以现在的行情折算成工资成本是多少?
接受不完美。牛津中阶也一堆错误。
好的,大家都提了很多好的建议,接受现实。现在先用我这个ocr的版本吧。可以配合英文原版一起看看纠纠错。
牛津中阶也有很多牛头不对马嘴的翻译,我怀疑就是当初制作的人插入中文时出错了,但没办法大家只能将就用。
举个例子看看
如果是给家里小孩子用,可以试试【中学英汉双解多功能学习词典】或者朗文的多功能英汉双解。论坛都有很好的mdx。
牛津初阶应该是Oxford Elementary Learner’s Dictionary啊,和Oxford Essential Dictionary是同一本词典吗?
是从 essential 翻译过来当作初阶双解出版。
Oxford Elementary Learner’s Dictionary出了两版后改名了
单词 s,还有很多单词有类似情况,就记不清了。