CCOW Collocations

使用 Collins, Cambridge, Oxford, Webster 的网址,全文搜索生成了一部搭配词典。

示例词条:

weird

weird-coincidence weird-combination weird-dream weird-feeling weird-habit weird-noise weird-out weird-sensation weird-thing weird-twist

a-bit-weird downright-weird funny-ha-ha-or-funny-strange-weird pretty-weird truly-weird

how-strange-stupid-weird-etc-is-that

6 Likes

网页链接下载至:https://www.collinsdictionary.com/sitemap.xml
然后直接生成了 mdx,正文网页是一个也没碰。宽松地说,不算侵权。名称 Collins 取自姓氏,非指 HarperCollins Publishers Limited。

同样的方法,获取 Cambridge 词典网址,与 Collins 数据合并。

源地址:https://dictionary.cambridge.org/sitemap.xml

辛苦了,很好的学习资料。

(帖子已被作者删除)

2 Likes

顺便也把 Oxford 撸了,它有一点独有的词组,如 Olympic village,源地址:https://www.oxfordlearnersdictionaries.com/sitemap.xml

还能说什么呢,感谢制作分享!
感觉很有用!

现在还只是能用的水平。Collins 和 Cambridge 网站倘若用心经营 Collocations 栏目,提质增量,几年后这个 mdx 的新版才会变得好用实用。

为什么所有短语的空格都用-代替了,这样不方便页内查找和全文搜索

因为它们是从网址里截出来的,就长这样。“-” 除了指空格,还能指 “-'/” 等分隔符,难以还原。页内查找,最好只搜一个关键词。好像没必要全文搜索。

决定只用 Collins, Cambridge, Oxford, Webster 的网址,其中韦氏只取 /sentences/*。

确实不用,只对mdx词典制作感兴趣,用来试验一下。

2 Likes

之前我弄的简洁版本:

2024-08-25_10-07-21.zip (3.8 MB)

2 Likes

当前版本:0.1q

筛掉了一部分 Collins 网址,精简 mdx

CCOW Collocations 0.1q.7z (2.8 MB)

1 Like