[词典校勘] 0ALD 小问题记录

https://061061.xyz/47309.html
隔壁的一个帖子,但相关板块关闭了,没见到后续更新。我随手记录一下发现的一些问题。半引用原帖作者的话,其目的在于:

零星错误不怎么影响使用,记录下来主要是为 MDX 制作提供参考。

欢迎大家提交发现的问题(仅限于官网上存在的问题),


原帖记录的几个问题,其中第3条官网已修复。

  1. cupcake 词条,“noun” 多余。
  2. nonprofit_2 与 nonprofit_1 重复了。(注:nonprofit_2应作adjective)
  3. image 词条,义项5 出现乱码 See 360° image.
  4. A & R 词条美式 ogg 音频缺失
  5. dirty 词条,习语 down and dirty 部分存在无效跳转
  6. thin 词条,习语 through thick and thin

2024.9.8

除cupcake外,关于词性是否多余或其它调整的问题,下列词条有待核查:

点击查看
  • Baluchi
  • bloody
  • blooming
  • cross-country
  • cupcake
  • doggone
  • effing
  • phatic
  • Pima
  • Pueblo
  • quadruple
  • quintuple
  • rectory
  • tank tread
  • the lunatic fringe

下面是和第5、6点同类型的问题:

点击查看
  • boot/old词条下习语(as) tough as old boots | (as) tough as nails部分存在无效跳转
  • pleased词条下习语(as) pleased/proud as Punch部分存在无效跳转
  • short词条下习语(as) thick as two short planks部分存在无效跳转

下面是缺失部分数据的问题:

点击查看
  • fast / quick / rapid / swift 词条下,词语辨析部分遗漏了 note at quick.

  • say / tell 词条下,词语辨析部分遗漏了
    But:
    Can you give me some information about the school?

  • wreck / collide / crash / slam / smash 词条下,同义词辨析部分有数据遗漏

  • 官网缺失的几个词条索引
https://www.oxfordlearnersdictionaries.com/definition/english/think-for-yourself
https://www.oxfordlearnersdictionaries.com/definition/english/bale-out
https://www.oxfordlearnersdictionaries.com/definition/english/train-on
https://www.oxfordlearnersdictionaries.com/definition/english/ent_2
https://www.oxfordlearnersdictionaries.com/definition/english/lech-after
2 Likes

句点位置错误问题:
consumer price index,the Daily Express,post office,reformation,James Thurber


</span></li></ul>.可替换为.</span></li></ul>

涉及词条如下:
also / back / big / British / classic / clean / clear / condition / course / disabled / do / economic / electric / fast / holiday / honest / hospital / inclusive / long / must / naked / near / next / proportion / rent / sea / staff / tight / very
这类问题不止是句点,还涉及其它符号,如果以块级元素的形式显示一些内容,还能找到不少,就不举例了。

image

image
强迫症患者容忍不了这种对不齐的问题

line = re.sub(r'(<li [^<>]+>) ', r'\1', line)

粘连问题:


还有一些词条,就不截图了,如Bessie Smith / Black Rod / Downside School / MAS*H / Silent Night / Thomas Cranmer / crown jewels / high-rise / skyscraper / the Act of Settlement / tower block / A level / Hoagy Carmichael / exam / Higher / public transport / SAT / transport。(问题多见于Culture栏)

一些词条下,习语部分无内容,需核查一下,看看是否需要对.idioms和.jumplink[name=“Idioms”]进行decompose处理。

  • best
  • connect
  • curb
  • flow
  • prize
  • quarter
  • robbery

情景表达部分的.labels元素被孤立到例句以外,位置需挪动,涉及词条:
agree / apologize / ask / certain / concede / congratulate / conversation / correct / favour / guess / help / imagine / interrupt / introduce / invite / luck / mean / mind / offer / OK / open / opinion / permission / possible / prefer / rather / say / shall / sorry / speculate / start / stop / suggest / think / uncertain


image


从释义里(.def)也能分离出一部分属于.dtxt和.use的内容。

auntie / thy / uncle 词条下,.un结尾处的句点可以去除。
image

span.xrefs元素部分存在无效跳转。修复的时候若要保留锚点(href=“entry://目标词条#目标ID”)的话,以我的认知,大概率是要人工校对了。因为源数据里href指向的目标ID有部分就是错的。


官网还存在相当一部分标注了[tofix]的数据,多年来也没见修复。要跳转到正确的词性及目标ID的话,或许也还得人工参与。

.labels位置需挪动,涉及词条:mail / post
image


image
强迫症患者会在.def_qt和.ei间增加一个空格

部分括号内的内容(.gloss)未被例句标签包裹, 如:pretty / fairly / quite / rather / sorry / sympathy / staff
image

.pos和.labels之间的粘连问题,涉及词条:acct. / AK / Assn. / AZ / bn / bpi / bps / Cllr / Cpl / Det / DW / eng. / ff / FWIW / Gdns / HE / IA / ICYMI / Ind. / Lt / LW / nr / OH / pct. / Pkwy / Pte / Pvt. / p.w. / QB / RI / RR / Rte. / Rt Hon / Secy. / Sgt / So. / TTFN / wk / anemic / anesthesia / caster / centerboard / Cornish pasty / Ed.D. / fag end / offense / jerrymander / paleo- / -'s


.grammar和.labels之间的粘连问题,如perambulate

image


不过,官网Healthcare下并未收录internal medicine一词

aha moment
reprise
the Six Towns
词性和语法信息间的粘连

1 Like


9月更新后出现的问题。没开电脑,是否是个例还待排查。仅用dicttango全文搜索“BROKEN!”,涉及词条quest, quirk, reef, scallop, sic on, temporary, voluntary, wig out, wrinkly