Arlin
1
Dictioanry.com
√ 删除注释、广告
√ 删除完全重复的词条(wiser wise)
√ 删除thesaurus的内容
× 删除 THE AMERICAN HERITAGE 系列 和 COLLINS ENGLISH DICTIONARY 的内容
× 提取和拆分词组
注意:
@ @ @LINK 可用于修复跳转,修复后可删除。
Free Dictionary of Idioms
之前的版本缺失了js获取的内容
重新下载了这些词条(不含重定向),共82条,471个页面。
在换页的过程中,页面内的idioms个数会发生变化,为确保完整性并未去重。
链接未修复,因为不能确定大家所用的版本如何处理词头。
free dictionary of idioms 2020 (80862)
祝:
一路顺风!
12 Likes
dqg
2
小姐姐帅~据说dictionary。com刚更新,小姐姐的及时雨就不需要重新抓了
1 Like
Arlin
4
是吗,这是九天前的了。
这网站还是快的,追求最新版的可以试一下。
dqg
5
是的,七月份的数据suicide还没有culture note,小问题:suicide词条显示两次,好像抓重了
1 Like
Arlin
6
啊,是我传错了。把没去重的传上来了,明天重新传一下。
2 Likes
请问之间的版本还有链接吗?在论坛搜索了一下没有找到。谢谢。
多谢Arlin,dictionary的css、js没看到呀?
1 Like
Arlin
10
本贴资源都不是成品,需加工改造。
css把官网的改一改就行。
js其实没有必要用,留给大家个性化定制的。
2 Likes
Arlin
11
我又仔细看了一下,还是昨天跟你说过的问题,这两组链接分别是suicide和acclimate,实际内容略有不同,第一次对完全重复的词条去重时未成功。
https://www.dictionary.com/browse/suicide
https://www.dictionary.com/browse/suicided
https://www.dictionary.com/browse/acclimate
https://www.dictionary.com/browse/acclimated
https://www.dictionary.com/browse/reacclimate
https://www.dictionary.com/browse/reacclimated
decompose_tag(soup.find_all('aside', class_='css-fhskcy eljh6ml0'))
decompose_tag(soup.find_all('div', id='quizzes'))
decompose_tag(soup.find_all('li', attrs={"data-ci-target": "quizzes"}))
decompose_tag(soup.find_all('div', id='explore-dictionary-section'))
decompose_tag(soup.find_all('li', attrs={"data-ci-target": "explore-dictionary-section"}))
decompose_tag(soup.find_all('aside', class_='css-1kj1i77 e13sij4y0'))
进行以上操作之后,出现新的完全重复词条。昨晚那版有一部分重复就是因为没有在洗版后再去重。
至于你说的,你7月份做的版本没有重复问题,我也不太清楚具体原因,猜测是因为你用的是链接里的词头,而我用的是网页加载后的实际词头?
解决办法:
因为索引不分词性,可以保留最长的那个词条,剩下的用重定向。
感兴趣的、有空的可以继续改版哈,这词典太臃肿了…
附上当日所用索引:
dictionary_index_0923.7z (960.1 KB)
artour
13
邻家也发布了同样的[英英] Free Dictionary of Idioms 2020:Free Dictionary of Idioms 2020 - MDict 词库资源区 - MDict Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!
今天匹配了个css:
官方CSS
右键另存为 IPS.css
https://img.tfd.com/all.css?e
但是这个CSS显示很别扭,还不如不要,不要的话,这个词典的亮点 References in classic literature里的关键词不能高亮显示,如有高手可以,还请修改下CSS。
我没有这个修改的能力,但是换了这个TheFreeDictionary(8 IN 1)2020 的CSS,还凑合能用。谁让这个词典的idioms多的看不过来了呢!
IPS.CSS (40.4 KB)
1 Like
Arlin
14
这边没有开新帖,用了一下旧贴而已。
P站 就你前面还有人说官网样式好看呢,这东西因人而异,会改的话自己改一下好了。
Arlin
16
? 这两本都不太需要 js 吧,我加 script 只是以防万一。
官网右键审查,source 里有。如果担心乱码,那就将官方网页另存为到本地,文件夹内有。
官网的都是整站的,需要筛选清理,建议自己写。
只是想以此为契机,了解下js,还有就是词典里的音标切换 respelling 和 IPA应该要用到js吧,自己下到的client-4aa8e0ba.js 重命名之后也不能用,会报错。
Arlin
18
这么小的东西,直接 display:block 就是了。
Arlin
20
抱歉噢,已经删掉啦。idiom 的话,隔壁有位网友帮忙用度盘备份了,