- **目的:**做这个的目的一开始是想依据AHD(American Heritage Dictionary)3版里已有的中文翻译做双解版的AHD5。但是我的正则水平太差,做不到逐条释义例句匹配。
- **方法:**于是采用的方法是以AHD5-2017版为底本,如果词头与AHD3一致的,把AHD3的内容粘贴到AHD5内容后面。
- 匹配不上的一共11666条,都是AHD5新增的词条,已经附在res_notfound.txt里面。其中含有一些词组是AHD3没有单拆分出来,而是放在主词条后的。
- 有一些配错的,比如多个词条词头相同时无法区分。
- AHD5相比于AHD3词条有修订的数量比例很多,且有增有减。如果要彻底校对,恐怕挺费事。
- 对于GoldenDict用户,因为软件本身可以显示多个辞典,所以可能本mdx用处不大;对于MDict用户可能算有点用。
- 致谢:源数据分享者及原mdx制作者
res_notfound.txt (151.2 KB)
7 个赞
老哥,你这个词典第3版加第4版加第5版的数量总共是135684个,还没有第3版加第4版的总量166908个多啊,怎么越整合数量越少了啊。
下图是第3版加第4版加第5版:
下图是第3版加第4版:
我这个没有第四版的事,只利用了第三和第五版。而且只是根据第五版为基础增补的,词条数量只和第五版一样,如果有第三版中的词汇在第五版中删掉了,那就没有这个词条。这个不是数据全合并版。
好吧,我理解的有误,我以为是第3版,第4版,第5版的整合版。
amob
5
我感觉楼主应该以词典数量多的为底本整合比较好。匹配到的保留,删除的可以备注下,新增的就添加,这样词典能查到的单词就越来越多了,毕竟词典的作用就是查单词的。感觉词典的词条数是宁多不少比较好。
本论坛的AHD2024词典在当前讨论的3种词典中词条数是最少的,词条数为125741个,我不推荐用本论坛的AHD2024为底本。我推荐用AHD双解为底本。