2022年02月20日更新
1)与endnote版牛高四的衍生、复合词entry(class=“derivative”)对比,在原始词条下找到500多个隐藏的词头,予以分离,加“★”单列独立词条。在这个过程当中,发现如下词条缺失:
address, advance, authenticate, egotistic, egotistically, flute, fluting, geological, geologically, guard, guarded, guardedly, mover, moving, movingly, potty, potty-trained, sap, sap, sap, sapper, score, scorer, singer, singing, singleness, singly, single combat, single cream, single-decker, single-handed, single-minded, single-mindedly, single-mindedness, single parent, warm, warmer,
warming-pan,
warm-up, wave, wavelet, wavy, wavily, waviness
从yru版牛高四中复制相应文本补充完整。
2)与yru版牛高四中的多义词词条(即末尾有1、2、3编号的词条)对比,找到下列词条及释义缺失:
accord 2| across 2| be 1| bent 2| bent 3| bid 2| book 1| burst 1| by 2| clock 2| concern 2| double 5| drip 2| edge 2| flounder 2| lighten 2| scrabble 2| scrape 2| soup 2| to 3| wage 2
乃复制相应文本补充。
此为OX-9。
OX-9.txt (15.0 MB)
2022年02月14日更新
牛高四文本真是一个天坑,本来我认为可能没啥大毛病了,没想到接连暴露出两个问题:一是音标转写错误,或者说不规范,不符合纸本书,原来的“乱码”音标即使使用金山音标字体,渲染出来的音标字符有些也是错的;二则是词条重复,查了一下,计有283个重复entry。
音标不规范的问题用代码+手工替换修正,冗余重复词条则一一删除。如是则有OX-8。
OX-8.txt (15.0 MB)(实际未删除,可下载,此删除线表示版本废弃)
2022年02月11日更新
OX-7版对文本做了如下修订:
1)与可能的牛高四“yru版”mdx词头对比,增补近200个词头;
2)与endnote版牛高四的标准词头(standard标签)对比,修订了几十个原文中不准确的法文、西班牙文单词词头;
3)与txt81网站下载的牛高4网络文档比较,增补400多个本属于衍生词部分的词头(主要是以“-”开头的词缀和“the”开头的词组,这明显属于原发布者故意删除、破坏);
4)遗漏的繁体字“摺”替换为“折”;
5)若干其他小错误顺手修正,比如Π、π。
OX-7.txt (15.1 MB)(实际未删除,可下载,此删除线表示版本废弃)
2022年02月08日更新
OX-6版主要做的文本修订如下所述:
1)根据pdawiki网友achallan提供的单词粘连和拼写错误清单,纠正全文2000处左右此类失误。此清单难能可贵的是找出来了一些原纸本书本身(包括光盘)就有的文字讹误,像formaly、responsibilty、newpaper、countly、perfomance、exultaion等,虽然纠正过程中我没有一一核对原书,但就部分核查过的单词而论,我手上的牛高4纸本也是错的。
2)在修正单词粘连错误时,发现原始txt底本存在某些词条释义不完整、被中途截断的现象,设法清查(比如用正则 [^.?!'] \n★ 搜索),找到40-50处长词条大量阙文,于是从yru版插图牛高4 mdx中补充缺失文本。
3)补充全文缺失英镑符号 £ 400处左右,修正若干ä、ç、ô、∨、∧等形式的特殊符号。
OX-6.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)
2022年02月05日更新
OX-5版本主要集中校改因编码缘故而导致的异常字符,大概可能有500-600处(除显示为空白的,也有显示为问号的),一一根据原书校正,顺便修复了若干其他字符错误。另外,发现几处词条重复,予以删除,也有词条不完整的,如vote,根据繁体epub版补充。
OX-5.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)
2022年02月02日更新
OX-4版本主要处理了三个问题:
1)继续纠正音标乱码修复过程中的毛病,查出上一版中未曾修正的失误有200-300个左右。
2)处理繁简转换未彻底导致的遗留事项。
3)英文不规范的引号修正。改`today’中左单引号的 ` 为 ’ ,当然,严格来说,这依然是不规范的(可搜索直引号和弯引号的区别),但起码与原文中的右单引号保持了一致。凡500余处。
OX-4.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)
原始帖文
《牛津高阶英汉双解词典》第4版可谓业界经典,自出版以来近30年声名不衰,迄今依然受广大英语学习爱好者追捧。其纯文本早已有好事者在网上公之于众,但品质不佳,问题甚夥,最惹眼的莫过于因使用金山音标字体导致的注音“乱码”,看着就令人闹心生厌。虽然现在此词典已有颇为完善的mdx版本,使用便捷,但纯文本文件自有其妙处,比如不受平台限制,不依赖词典软件,全文搜索方便,词条可按顺序浏览,易于转换成Word、PDF标注做笔记等,所以我计划对此文本做以校改修正,不说要多么完美,最起码基本可用吧。
校改的版本基础为我早年收集的缺少“L”词条的TXT文件,其缺失内容从 http://www.txt81.com/down/4740.html 处的文档补充,不直接使用此网站文件是因为它存在一些缺陷,例如音标里的US字样被删除,部分英文单词间的空格消失。不过这个网络文档也有一些长处,比如某些以the开头的词条(the unconscious等)在我的文件里没有,它却是完整的,以后可以通过对比补充找回。
此最基础的底本我称之为OX.txt,其后校改更正过版本会依序命名为OX-1、OX-2……OX-n等,在此首先贴出的版本是OX-3.txt.
OX-3在原始底本(OX.txt)上做了以下修正:
1)校正音标乱码。修改的办法是先用程序,谨慎使用正则,以免过多误伤,但因为谨慎,会导致少量音标乱码没有被改正,于是再用正则查找手工纠正。尽管如此,以我的经验,正则批量修改肯定会出想不到的意外,一种是误伤,修改了不是音标的字符,一种是仍然有躲藏着没被修正的音标,抽样目测了一下,这种情况还是比较少的,在可接受范围以内。
2)完善词头(headword)标签。在词典纯文本文件里,把词头全部标注清楚是比较重要的,不然混在正文中很难进一步加工,就是阅读也困难,找不到重点目标所在。原始文件本身在词头前有“★”标签,但遗漏很多,于是设法(正则查找+目测检视等)一一补充,目前得词头44060个。可能继续会有遗漏,应该很少。
以我的标准,经过如上修正,OX-3算勉强可用,最起码没有无数音标乱码闹心碍眼了,在chrome、VS code或者Notepad++里打开全文浏览、搜索,是比较方便的。
在这里发布的版本(OX-3)只是计划中一系列修正的起点,目前我想到的还可以继续校改的问题有:
a、纠正上一步音标和标签修改中的错误。
b、处理繁简转换导致的错误,像“後、於、麽、著、乾”等。
c、英文引号标点混乱纠正。比如 In the word `today’ the accent is on the second syllable. ——`today’前的字符并不是正规的英文引号,但它不是简单替换就能修正的,因为词典中原先音标里的重音,正文短语里标注重音,用的是同样的符号。怎么只修改引号用法的`,而不伤其他令人头痛。
d、修正中文标点。是否把原文中不规范的中文引号(‘ ’)、句号(.)修改过来,此点待议。
e、纠正中文当中可能因为编码问题导致的错误。原文中有些字符显示不正常,比如“错误地或愚 地付出(爱情、 情感等)”,这里空格处应该是“昧”,但却编码为 E38080 ,UTF-8内码无法显示。粗略搜了一下,类似的地方有300余处。
f、修正原词典文本本身可能就有的讹误。在这里本论坛的帖子( 接力打造完美的OALDv4再续(双解切换2022秋季版) )就有很多可借鉴之处。
g、补充在开头已经提到过的遗漏缺失词条。
有其他未及事项,网友可补充。
OX-3.txt (14.9 MB) (实际未删除,可下载,此删除线表示版本废弃)