每一本子词典都动过刀,但是时间跨度太大以至于记不清具体的修正,再加上目前还是“大锅乱炖”的状态(小词典+大词典共有30几本,需要进一步筛选,过程文件100+)因此此贴不会直接发合集。适逢hua大开课,我会选择性地将源文件传上来,方便感兴趣的小伙伴制作出专属 N in 1。
[基本过程]
(1)解包后先检查首尾空格、空行(可能缺< / >),这种情况会导致词头缺失。
比如The Free Idioms être 这个单词,如果你也在用主站评论区的这本词典,可以试着查一下。
(2)比对< >的个数,初步排查未闭合的情况,再具体比对整个标签。
在这个过程中,很容易发现其他问题,慢慢修正。如果问题比较少,手工修一下,如果问题很大,像我这种懒人就会选择将问题丢给beautifulsoup(不得不选择相信它)。
给词条首尾加个特别点的标签,比如< section > < main >,用python跑一遍,如果这个标签不在行尾了,说明这个词条,它没有闭合!没有办法,介意的话就继续改呗。
(3)给各种转制的词典加标签(复杂,容我慢慢想)
(4)…
[注意]
(1)在替换中要时刻关注个数。个数对不上那就是有问题。
(2)最后要记得比对一下词头。
(3)…
[资源]
[1] English Idims Sayings and Slang by Wayne Magnuson
I.zip (384.3 KB)
Langheping的一本转制词典,GoldenDict显示词头数为700+,其实它有6000+,拆包后肉眼没有发现任何问题(格式正确,什么都不缺,无首尾空格,无空行)。
将文本复制到另一个文档再粘贴回来,或者直接创建一个新文档转存,奇迹会出现~
原文件在此,各位可测试一下。
[2] The Idioms 2020 (html)
1372TIC索引.zip (6.7 MB)
官网的OUT主题打不开,可在最后从mdx提取。
有10几个单词标签和结构有问题,生成mdx时就会知道了。
[3] Green’s Dictionary of Slang 2020 (html)
之前发过,源文件已被我清理掉了,存了的小伙伴可自由分享。
词头数5万多,我决定让它独自美丽,没有并入N in 1。
[4] The Free Idioms
链接: https://pan.baidu.com/s/1sZLm1h05g3QhBDwwbBWQow
提取码: bixv
309094+ 1个被并入être的词条 + < / >未闭合而缺失的they开头的n个词条 - 完全重复的词条 - 只相差Reference部分的词条= 308208
选择这本只是因为有reference,它是有缺陷的:
有些可以用link或href的词条全部弄成了完整词条,导致mdx体积过大;
缺失官网切换才能显示的内容;
< a >链接里没有entry : / /,在一些软件无法跳转;
reference里的引用未去除跳转,这部分是不必要的。
[5] The Concise New Partridge 2nd (html)
[转载]自购美亚New Partridge Dictionary 2nd Edition
https://www.pdawiki.com/forum/thread-36045-1-1.html
最终还是选择了简明版,修改了10几遍(吐血)。建议先把词头提取出来,再对照着旧版改。
词头里可能含三角符号或词性。
国家和年份缺失: 如(1)913、(U)S 及(U)K等
序号前常有多余字母,比如 a1. 这样,多个a。(取出词头及序号,序号不连续即有误)
lay这一词条epub就有错,需要手工修改。
个别词组的解释错位,排查序号即可发现。
[6] The American Heritage Dictionary of Idioms 2nd
[转载][20191130]The American Heritage Dictionary of Idioms Second Edition
最省心的一本词典(也可能是我没发现)。有几个< a >标签未闭合,个别解释被当成了例句,无伤大雅。
[7] A Dictionary of American Idioms
A Dictionary of American Idioms.zip (960.6 KB)
从slang 9in1当中提取的一本词典。应该是吃鱼做的,不知道是第几版。
题外话,有无同义词合集同好?欢迎合作~