新世纪英汉大词典Phr V & Idioms

新世纪英汉大词典 Phr V & Idioms

〔资源〕 改进CSS新世纪英汉大词典

〔改版〕 新世纪英汉大 191008改版

〔说明〕
之所以会提取,是因为看到有小伙伴反映这本词典提取的不全(TA反映缺失的take care,词典中本来就没有~只在care词条正文中存在take care!

本贴只提供单独的Phr V & Idioms,便于大家自行选择是否加入mdx。
PS: 未采用@@@LINK,故可单独使用。

〔第一阶段〕

  • 确保标签闭合(至少保证数量一致),修正错误汇总里的错误
  • 用python提取出每个词条下的俚语部分并以sense划分单个俚语
  • 用python进一步提取单个俚语下的其他词头,含:
    phrase_sense | phrase_with_or | mphr_en | mphr_en s | mphr_en to | mphr_en to be
  • 手工修正含or的词条手工拆分含 / 或者含()的词头
  • 以上汇总去重后得到4381个词条(修复标签后再提取,多了百来条数据)。
    至此,第一阶段提取结束
    Download :
    idioms.zip (440.5 KB)

〔第二阶段〕

  • 提取出正文中(不含idioms部分)的maybe_phrase,手工拆分并去重后共34038条。

  • 提取出正文中(不含idioms和maybe_phrase部分)的maybe_phrase next,拆分含or的词条并去重后共2995条。

  • 提取出正文中(不含idioms、maybe_phrase及maybe_phrase next部分)的phrase_sense,尽可能多保留相关内容,拆分词条后,去除See also下的phrase_sense(例如after-effect词条下的side effect),得到11327条数据。

  • 2条漏网之鱼:不包含在上述所有内容中的phrase_with_or。

  • 上述过程中删除了A jump to A类型的词条:
    Ada | Betacam | heavens | Heelys | iPad | iPhone | i-Player | iPod | iTunes | Kindle | MP/M | occam | Supplex | Unicode
    如:
    image
    建议:
    建议只用第一阶段提取的,也就是idioms中提取出来的 phr V & idioms。
    第二阶段从正文中提取的,由于没有固定结构,只好尽可能多的保留内容,因此有千把词条很臃肿。
    没有采用@@@LINK的形式建议单独使用
    Download :
    others.zip (4.5 MB)

〔补提〕
补提了 doble bigword,去除原版@@@LINK已有词条并去重后共1637个。
这1637个可按需添加(可能与第一阶段和第二阶段所提取的重复)。
Download :
doble bigword.zip (14.0 KB)

附赠
Download :
新世纪汉英增补.zip (6.8 KB)
沪江小D可增补.zip (6.4 MB)

修正了三个词条:



错误汇总

24个词条< 或 > 多余

all-terrain vehicle | doghouse | shaker | haemorrhoidectomy | haemolyses | pip | main | shake | deuce | tub | wall | tool | sugarer | Sceptic | M3c | haemorrhage | haematoblast | forced labour | count | bacillaemia | doghouse | intramuscularly | cold | imperforate |

8个词条idioms部分结构有误

aback | cart | eff | minute | most | original | tune | count

内容多余

image
subject3 与 subject4重复


N处缺标签

Channel Islands
Church of Scotland
Budget
bend | pitch | dekko
image
hash | could | worth | chain | bless | words | why | hurt | new | lift | ass | ask | rub | it | but | gift | hen | suit | happen | blame | help | acquaintance | ken | pulse | pity | this | health | indulgence | knock | nudge | blush | auspice | millstone | pleasure | either | safe | too | maintain | scalp | will | catch | middle name | curdle | aunt | anything | half | beg | assume | crawl | pardon | shoe | jake | trail | going | shut | suppose | lines | leaf | bollocks | condition | sense | be | hornet | evidence | razor edge | aid | duck | use | flesh | within | mistaken | returns | lighten | comb | bull’s-eye | queer | tinker’s damn | rose-coloured | sword | sell-by date | turn-up | rose-tinted | goose | show | half-cock | watering hole | once-over | self-destruct | fairness | …

2处序号相关的问题


可能有误

N处链接粘连问题

image
沪江小D:


spontaneities | armouries | monthlies | organa | uredosori | exigencies | skivvies | fifties | studies | pogies | plectra | thyrsi | loculi | jellies | frena | fellies | minorities | nineties | proprieties | haeredes | prothalamia | hostilities | monies | gynecocracies | ephemera | eccentricities | papulae | festivities | gildswomen | palestrae | impedimenta | antiquities | paddies | supplies | skiamachies | trilbies | spiritualities | peavies | energies | follies | flies | twenties | mysteries | vesicatories | thirties | naumachies | teeth | facilities | liabilities | sympathies | funnies | goodies | hymenoptera | spurries | technicalities | interrogatories | preliminaries | fogies | Hassidim | groceries | matzoth | epithalamia | trivia | smoothies | overflown | stories | amenities | protonotaries | sensibilities | mahzorim | susceptibilities | axes | wallies | janizaries | jollities | mesdames | sensitivities | eighties | forties | fundies | sixties | fries | policies | humanities | seventies | pubes | auxiliaries | extremities | pearlies | sundries | equities | securities | feet | ivories | value

N处中文标签有误

其他

〔预览〕







拆分词条已经耗了超多业余时间,不打算再更新。
欢迎有闲的小伙伴继续修改!

7 个赞

大神威武 :+1: :+1: :+1:

1 个赞

no 大神 :doge:
咱们都是热爱词典的普通人儿~

2 个赞

谢谢大佬了,没想到自己提了一次说这个词典词组提取得很不全,大神就帮忙做了,感谢。静静的等待第二阶段提取完成

过谦 :smile: :smile: :smile: :smile:

1 个赞

这本很不好提取,楼主真的辛苦了

Arlin姐姐,谢谢你又给大家发福利了。你完全配得上大神的称号!

怀疑这有人想捧杀哀家 :doge:

2 个赞

确实有点令人头大,慢慢来吧

帖子更新居然不会出现在主页前面,差点错过了。多谢楼主辛苦工作!

1 个赞

好像只有更改帖子标题或者评论才会出现在前面~

请问小姐姐,最后附赠的新世纪汉英增补,原版是哪个版本呢?

说明里写了的,主站有。

抱歉,因为那个文件打开是乱码,所以我没看到,可能是zip格式压缩的原因。

您好,那个ncced2.css的css文件能分享一下么?

主站hua的沪江小d

真的是小姐姐吗?

真的啊,哪能有假,可漂亮了呢

非常感谢Arlin姐姐完善这个词典。不知以后是否还会进行下一阶段的改进吗?在GD中,查not least只能在least的释义5中查到,不能直接出来。not least because和llast but not least可以。

1 个赞

因为not least用的是@@@吧,这1万多实在是太麻烦了,有空的可以完善一下。

1 个赞