【数据已有,征集处理数据志愿者】制作牛津学术词典

(20200930 01:40 p.m. 更新)hua抓取数据完成,有意愿的人就直接做。


(原标题:征求一人抓取牛津学术词典)

各位好,

目前已经购买且兑换了一个牛津学术词典的帐号,征求有能力、意愿者来抓取。抓取者没有特别酬劳,纯粹是服务大众 :smile:

网站有索引https://www.oxfordlearnersdictionaries.com/browse/academic/

mp3索引及官网CSS.rar (239.8 KB) (由版友分享)

请回帖报名,方便的话,请在文章中简单说明您可以胜任此工作的理由,例如先前有相关作品,或是相关专业、资历等等。若报名超过一人,则从中挑选,若没有特别适合者,亦可能从缺。若我主观认为报名者符合需求,也可能直接录取,不再等待来者。

抓取完的作品可以公开分享,不过希望直接在这个讨论串说明进度、分享,不要再另开主题(除非是针对此抓取完的作品进行改版),免得同一项工作占用论坛太多标题位置。谢谢!

11 Likes

我只做数据。

1 Like

好的,那就让hua来处理数据,到时候直接让有意愿者去做词典 :smile:

感谢 坛友 分享的 索引文件。
所有数据:
all_parts.7z (18.7 MB)

每行一个词条,格式:

原始网址|||词头|||词性|||词条内容

其中词性可能为 None,意为没有词性。另外建议从词条内容里面取得词头等信息,原始网址|||词头|||词性||| 这三个只是为了我查bug用的。

音频数据:

6 Likes

2020.10.21
JS v1.0b (感谢last_idol)
修正直接查词组的情况下,附加栏位点不开的问题,如查sum up,底下的Language Bank

2020.10.16
CSS v1.6c

2020.10.11
CSS v1.6b

2020.10.05
MDX v1.9 (感谢ubersoft https://forum.freemdict.com/t/topic/3467/125?
CSS v1.6a

2020.10.03 07:42 p.m.
更新:可直接查询词组。(感谢ubersoft)
MDX v1.8
CSS v1.6

2020.10.02 06:53 p.m.
更新:进一步修正单词复数形式的跳转。(感谢ubersoft)
MDX v1.7a
CSS v1.5a

2020.10.02 02:33 p.m.
更新:重新自原始资料提取成mdx,去除不应该出现的空格。(感谢ubersoft)
MDX v1.7
CSS v1.5

2020.10.02 11:16 a.m.
更新:稍微调整版面。
MDX v1.6b
CSS v1.4h

2020.10.02 10:05 a.m.
更新:稍微调整版面。
MDX v1.6a
CSS v1.4g

2020.10.02 12:14 a.m.
更新MDX v1.5a:稍微调整版面。

更新MDX v1.5:重新提取,解决跳转问题,感谢ubersoft。但也因为重新提取,标点符号有出现空格,待处理。


MDX v1.9:Oxford Learner’s Dictionary of Academic English.mdx (14.5 MB)
JS v1.0b:oldae JS.rar (445 位元組) (感谢 last_idol提供)
CSS v1.6c:oldae.css (67.5 KB)
MDD:https://cowtransfer.com/s/459b0dc236da46 (感谢 random提供)
链接2: https://pan.baidu.com/s/1tHOSP5myeGkrtTxA-K6zKg 提取码: yef6
(mdx和mdd需更名为一致)
词典图片 Oxford Learner's Dictionary of Academic English

版友提供的mdx源文件
oxford_academic.rar (9.4 MB)
原本oldae官网的css(要更名为oldae.css)
combined.css (251.0 KB)


补充:

OPAL (Oxford Phrasal Academic Lexicon)

The Oxford Phrasal Academic Lexicon , or OPAL for short, is a collection of four different word lists that together provide an essential guide to the most important words to know in the field of

English for Academic Purposes (EAP):

  • Written words
  • Spoken words
  • Written phrases
  • Spoken phrases
10 Likes

折叠和展开用的js文件

Array.from(document.getElementsByClassName('unbox')).forEach((box) => {
    box.getElementsByClassName('heading')[0].addEventListener('click', () => {
        if (box.className.includes('is-active')) {
            box.classList.remove('is-active');
        } else {
            box.classList.add('is-active');
        }
    });
});

建议考虑一下 goldendict 兼容性。。

1 Like

nonwill 版本的gd可以用就行了

那个之后再处理…

1 Like

你好,这个js我这边gd用了,但栏位还是点不开,我命名为oldae.js。

不晓得能不能再调整一下?谢谢。

function toggle(box){return function(){if(box.className.indexOf('is-active')!=-1){box.classList.remove('is-active')}else{box.classList.add('is-active')}}}function bind_toggle(){var nodes=document.getElementsByClassName('oldae');(nodes.length==0)&&(nodes=document.getElementsByClassName('pv-gs'));for(var i=nodes.length-1;i>=0;i--){var boxes=nodes[i].getElementsByClassName('unbox');for(var j=boxes.length-1;j>=0;j--){var box=boxes[j];box.getElementsByClassName('heading')[0]&&box.getElementsByClassName('heading')[0].addEventListener('click',toggle(box))}}}function docReady(fn){if(document.readyState==="complete"||document.readyState==="interactive"){setTimeout(fn,1)}else{document.addEventListener("DOMContentLoaded",fn)}}docReady(bind_toggle);
1 Like

您好,用您这个,第一个栏位可以点了,但点第二个还是在操控第一个(而且会影响到另一本牛津9)。您可查「part」这个字来测试 :smile:

(更新)目前已经可以了。

已更新,你再试试。

1 Like

Please upload complete dictionary. Thanks

估计宽度设定要调整。有横向的滚动条。

感谢更新,这个能做成点击在线发音么?

查 recognize,有个小bug: