【筹划】Webster's New Dictionary of Synonyms双解版

大家都知道,Webster’s New Dictionary of Synonyms有个中文翻译版,是王正元的英语同义词辨析大词典。
刚好在这https://forum.freemdict.com/t/topic/1545,有人分享了切图版。

我从解包的图片中人肉挑出了所有包含中文的图片,用百度云ocr高精度版识别并整理成了文本数据。整理之后发现,王正元实际翻译过的词条大概只有2293条。数量并不多,所以顿时感觉有整合到Webster’s New Dictionary of Synonyms中的可能性。

新人没有制作过词典,不懂如何处理格式化目前的数据和插入到英文版。
不知道大家有没有兴趣一起来搞一下?万一实现了呢 :joy:


附件是ocr的数据和隔壁论坛lmjiao制作的Webster’s New Dictionary of Synonyms。

英语同义词辨析大词典_OCR文本.rar (3.4 MB)
2019_07_30_Webster’s New Dictionary of Synonyms by lmjiao.rar (3.2 MB)

10 Likes

坚决支持!只要把识别后的中文匹配到英文原版后面就可以了,不过我印象中似乎中文翻译例句要多一些。

对不上。
英文版是母本不假,可中文版是有取舍的,还加了些别的词典的内容,用了就知道了。
做的话也是wzy老师的韦氏同义词辨析版本,但大多数内容是重合的。

我也是对比过发现不能完全对上,但是大部分还是可以的,这样也可以匹配。

请问可以补档切图版吗?感谢

并列查询就可以啊,虽然不是最方便,但是最准确。准确性 超越 便利性。

支持, 支持首先单独且尽可能完整准确地做出王版英汉(部分) :heart_eyes:

中文版主要是例句部分很多对不上,但是词语辨析的部分和英英版相比改动不大,这部分匹配应该没问题。例句的话可以选择把中文版多的例句直接加到英英版里面。

嗯,可以匹配大部分的。词条数本来也不多,就算是匹配之后,再逐条校对,时间成本也能勉强接受。

这是网页还是软件包?

貌似python有模糊匹配的解决方案,然后在人工校对一下

是这个,https://ai.baidu.com/tech/ocr/general。

模糊匹配不会用。。模糊匹配应该能匹配一部分例句。
但是词语辨析部分因为没有英语部分,没办法直接匹配。
目前来看,一个词条里面的词语辨析的段落数量和英英版的基本是一致的。
说不定可以用这个来大致匹配一下。

1 Like

楼主有没有想ocr其他切图版本的词典?
比如蓝登书屋韦氏英汉大学词典 ENCARTA英汉双解大词典 英语搭配大词典(增订版)王文昌
或者能否帮忙ocr一下啊,乐意支付其费用~

1 Like

WangSYN_over.html.rar (16.7 MB)
带格式。准确率没你的好,人多了校对下应行。

你这个带格式的漂亮多了。我也试过用ABBYY FineReader 15识别,识别的结果差强人意。校对是个体力活。要是能用程序批量整和一下这两份ocr结果就好了

ABBYY FineReader就是莫名其妙的空格和分段,要不可以减少很多校对的事。

把.html改成txt用文本编辑器打开随意加改标签,完事再改回来.html在ie里校对流畅度还行。

这样子确实方便人工校对。
然后就是把汉语部分插入英文版了

插入英文版的工作,这个词典大概只有2000多个词头需要匹配插入,不算太多。即使有很多不能自动匹配 ,剩下的部分,如果大家可以分工一下,也能搞定。

别想了,他这本是大杂烩(删减例句数量引入use the right word的内容)。你的想法可以在读者文摘那本use the right word上实现,因为那本是按原书出的汉译版(正体字,港人的语言习惯,整体来说质量还不错)。

这本只能是王正元老师的韦氏辨析双解了。

那就先不考虑插入英英的事情了。
大家一起校对出这本王正元老师的韦氏辨析版本吧。 :smiley:

暂时还没有ocr其他词典的想法。
ocr这本也主要是自己兴趣使然,想尝试下动手制作一本词典。