英汉辞书9 求助 大佬 闲了 解开正文 玩玩

英汉辞书 正文加密 请大神 解密下

7 Likes

请问有没有大神 出手 解密下数据库 玩玩
https://www.oupchina.com.hk/zh/oecd

3 Likes

这个正版一次买断好贵啊,而且还不更新内容,厂家就想让你年年订阅

1 Like

OED 之前的那个版本总感觉用的不顺手,希望这次能再出一版更好的

00EEDD公开版 2020.12.21 源数据 的处理还是要注意古英语的那些特殊字符。另外不知道跟订阅版有什么区别?

还是更期待牛津辞书

1 Like

英汉辞书的老版本在隔壁破解过,当时里面的牛津高阶还是8,不知道数据库格式变了没有?

我看源数据里就不是古文字,官网应该也不是?

这词典感觉啥都要加个 id ,体积巨大,排序也很糟心。
之前讨论过的排法碰上 v.2, adj.3 and n.3 ,再加上 adj.1 and n.2 // n.1 and adj.2 这样的,令人头大。还有些像 sledging 一样,n.1 放在 sledge 的 derivative 里。

1 Like

右下角是光盘oed2v4 版老版本,提取得没毛病
/original/2X/5/5a184f5439fdb51838c75376058b47c74da11c31.png

官网的 html 已经是这样了,再怎么提取也变不回古文字了吧。
image

花了点时间整排序,供参考:
OED_SORT.txt (16.2 MB)
处理多词性时,排查出的有问题(重复或者矛盾)的排序:
ERROR.txt (13.4 KB)
还有些类似 sledging 的排序问题未统计(我选择忽略)

3 Likes

别被我那个贴子误导了,按那边41楼截图里的侧边栏词头列表排序最佳。

:grinning: 我选择美观排序,顺眼便好。

其实我上上周折腾 OED1214 时有个小发现:根据数据 (result=number) 排序,与 41 楼结果一致。

但是,这数据不唯一,请看:
image

本来想偷懒,借用这项数据,因为最新的源文件里没有找到这项数据(如果谁找到了,求指导)。
OED1214 版本,根据词条ID排查出 120 几条重复(black),剩 20 几条未找出,还有 260 几条没有这项数据(猜测可能是索引地址不同、下载器不同或者是数据处理批次不同导致的差异),再加上官网这项数据本身不具备唯一性,最终只能放弃使用,改用词性 id 值排序,强迫症看起来还算舒服,可以将就。

1 Like

你发的图中前面那个id,也就是楼主压缩包解开的文件名,就是词条ID啊。

?是啊。这个没用,要 result id ~