牛津高阶英汉双解词典 第4版 文本校改(2022-02-20更新)

2022年02月20日更新

1)与endnote版牛高四的衍生、复合词entry(class=“derivative”)对比,在原始词条下找到500多个隐藏的词头,予以分离,加“★”单列独立词条。在这个过程当中,发现如下词条缺失:

address, advance, authenticate, egotistic, egotistically, flute, fluting, geological, geologically, guard, guarded, guardedly, mover, moving, movingly, potty, potty-trained, sap, sap, sap, sapper, score, scorer, singer, singing, singleness, singly, single combat, single cream, single-decker, single-handed, single-minded, single-mindedly, single-mindedness, single parent, warm, warmer, warming-pan, warm-up, wave, wavelet, wavy, wavily, waviness

从yru版牛高四中复制相应文本补充完整。

2)与yru版牛高四中的多义词词条(即末尾有1、2、3编号的词条)对比,找到下列词条及释义缺失:

accord 2| across 2| be 1| bent 2| bent 3| bid 2| book 1| burst 1| by 2| clock 2| concern 2| double 5| drip 2| edge 2| flounder 2| lighten 2| scrabble 2| scrape 2| soup 2| to 3| wage 2

乃复制相应文本补充。

此为OX-9。

OX-9.txt (15.0 MB)


2022年02月14日更新

牛高四文本真是一个天坑,本来我认为可能没啥大毛病了,没想到接连暴露出两个问题:一是音标转写错误,或者说不规范,不符合纸本书,原来的“乱码”音标即使使用金山音标字体,渲染出来的音标字符有些也是错的;二则是词条重复,查了一下,计有283个重复entry。

音标不规范的问题用代码+手工替换修正,冗余重复词条则一一删除。如是则有OX-8。

OX-8.txt (15.0 MB)(实际未删除,可下载,此删除线表示版本废弃)


2022年02月11日更新

OX-7版对文本做了如下修订:

1)与可能的牛高四“yru版”mdx词头对比,增补近200个词头;

2)与endnote版牛高四的标准词头(standard标签)对比,修订了几十个原文中不准确的法文、西班牙文单词词头;

3)与txt81网站下载的牛高4网络文档比较,增补400多个本属于衍生词部分的词头(主要是以“-”开头的词缀和“the”开头的词组,这明显属于原发布者故意删除、破坏);

4)遗漏的繁体字“摺”替换为“折”;

5)若干其他小错误顺手修正,比如Π、π。

OX-7.txt (15.1 MB)(实际未删除,可下载,此删除线表示版本废弃)


2022年02月08日更新

OX-6版主要做的文本修订如下所述:

1)根据pdawiki网友achallan提供的单词粘连和拼写错误清单,纠正全文2000处左右此类失误。此清单难能可贵的是找出来了一些原纸本书本身(包括光盘)就有的文字讹误,像formaly、responsibilty、newpaper、countly、perfomance、exultaion等,虽然纠正过程中我没有一一核对原书,但就部分核查过的单词而论,我手上的牛高4纸本也是错的。

2)在修正单词粘连错误时,发现原始txt底本存在某些词条释义不完整、被中途截断的现象,设法清查(比如用正则 [^.?!'] \n★ 搜索),找到40-50处长词条大量阙文,于是从yru版插图牛高4 mdx中补充缺失文本。

3)补充全文缺失英镑符号 £ 400处左右,修正若干ä、ç、ô、∨、∧等形式的特殊符号。

OX-6.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)


2022年02月05日更新

OX-5版本主要集中校改因编码缘故而导致的异常字符,大概可能有500-600处(除显示为空白的,也有显示为问号的),一一根据原书校正,顺便修复了若干其他字符错误。另外,发现几处词条重复,予以删除,也有词条不完整的,如vote,根据繁体epub版补充。

OX-5.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)


2022年02月02日更新

OX-4版本主要处理了三个问题:

1)继续纠正音标乱码修复过程中的毛病,查出上一版中未曾修正的失误有200-300个左右。

2)处理繁简转换未彻底导致的遗留事项。

3)英文不规范的引号修正。改`today’中左单引号的 ` 为 ’ ,当然,严格来说,这依然是不规范的(可搜索直引号和弯引号的区别),但起码与原文中的右单引号保持了一致。凡500余处。

OX-4.txt (14.9 MB)(实际未删除,可下载,此删除线表示版本废弃)


原始帖文

《牛津高阶英汉双解词典》第4版可谓业界经典,自出版以来近30年声名不衰,迄今依然受广大英语学习爱好者追捧。其纯文本早已有好事者在网上公之于众,但品质不佳,问题甚夥,最惹眼的莫过于因使用金山音标字体导致的注音“乱码”,看着就令人闹心生厌。虽然现在此词典已有颇为完善的mdx版本,使用便捷,但纯文本文件自有其妙处,比如不受平台限制,不依赖词典软件,全文搜索方便,词条可按顺序浏览,易于转换成Word、PDF标注做笔记等,所以我计划对此文本做以校改修正,不说要多么完美,最起码基本可用吧。

校改的版本基础为我早年收集的缺少“L”词条的TXT文件,其缺失内容从 牛津大学英语词典txt下载-八一下载网 处的文档补充,不直接使用此网站文件是因为它存在一些缺陷,例如音标里的US字样被删除,部分英文单词间的空格消失。不过这个网络文档也有一些长处,比如某些以the开头的词条(the unconscious等)在我的文件里没有,它却是完整的,以后可以通过对比补充找回。

此最基础的底本我称之为OX.txt,其后校改更正过版本会依序命名为OX-1、OX-2……OX-n等,在此首先贴出的版本是OX-3.txt.

OX-3在原始底本(OX.txt)上做了以下修正:

1)校正音标乱码。修改的办法是先用程序,谨慎使用正则,以免过多误伤,但因为谨慎,会导致少量音标乱码没有被改正,于是再用正则查找手工纠正。尽管如此,以我的经验,正则批量修改肯定会出想不到的意外,一种是误伤,修改了不是音标的字符,一种是仍然有躲藏着没被修正的音标,抽样目测了一下,这种情况还是比较少的,在可接受范围以内。

2)完善词头(headword)标签。在词典纯文本文件里,把词头全部标注清楚是比较重要的,不然混在正文中很难进一步加工,就是阅读也困难,找不到重点目标所在。原始文件本身在词头前有“★”标签,但遗漏很多,于是设法(正则查找+目测检视等)一一补充,目前得词头44060个。可能继续会有遗漏,应该很少。

以我的标准,经过如上修正,OX-3算勉强可用,最起码没有无数音标乱码闹心碍眼了,在chrome、VS code或者Notepad++里打开全文浏览、搜索,是比较方便的。

在这里发布的版本(OX-3)只是计划中一系列修正的起点,目前我想到的还可以继续校改的问题有:

a、纠正上一步音标和标签修改中的错误。

b、处理繁简转换导致的错误,像“後、於、麽、著、乾”等。

c、英文引号标点混乱纠正。比如 In the word `today’ the accent is on the second syllable. ——`today’前的字符并不是正规的英文引号,但它不是简单替换就能修正的,因为词典中原先音标里的重音,正文短语里标注重音,用的是同样的符号。怎么只修改引号用法的`,而不伤其他令人头痛。

d、修正中文标点。是否把原文中不规范的中文引号(‘ ’)、句号(.)修改过来,此点待议。

e、纠正中文当中可能因为编码问题导致的错误。原文中有些字符显示不正常,比如“错误地或愚 地付出(爱情、 情感等)”,这里空格处应该是“昧”,但却编码为 E38080 ,UTF-8内码无法显示。粗略搜了一下,类似的地方有300余处。

f、修正原词典文本本身可能就有的讹误。在这里本论坛的帖子( 接力打造完美的OALDv4再续(双解切换2022新春版) )就有很多可借鉴之处。

g、补充在开头已经提到过的遗漏缺失词条。

有其他未及事项,网友可补充。

OX-3.txt (14.9 MB) (实际未删除,可下载,此删除线表示版本废弃)

10 Likes

在这里我也把底本OX.txt附上,方便其他人对比查看到底做了什么更改,有什么错误。

OX.txt (14.7 MB)

4 Likes

佩服楼主。不过为什么不用这个版本修改——接力打造完美的oald4再续:

导出mdx为文本文件,正则隐藏一下词头,改后缀名为.html。只要电脑性能不是太差,用浏览器打开,原词典各种格式都保留。你如果要纯文本,复制一下浏览器里的内容就是纯文本。

2 Likes

你说的这种简便法门我当然考虑过,在 《21世纪英汉词典》(2022-01-06日更新) 还动手自己提取了几个文件,但在OALD4上行不通,因为在其源码里已经对原始文本的结构做了不少更改,更麻烦的是其起初的制作者把正文当中的一些符号(义项编码等等)给删了,然后用css伪类生成。改文本结构、删符号容易,但要还原,再加回去,我水平有限,没想到有什么简单轻松的办法。

1 Like

从mdx还原的OALD4纯文本早就有了,我数年前就用过,也修正过音标,见 english-dictionary/OALD4 at master · mahavivo/english-dictionary · GitHub ,它的问题是继续修也难以保证和原始光盘文本(或纸本书)一致,也不知道这些转换过程中又引入了什么新的错误,用比较原始的底本,起码存在着什么问题,自己做了什么改动,都是一清二楚的,有案可查。

1 Like

大概看了一下 OX-3.txt,真实词头只有38000多,至少漏了上千词条,单是音标错误应该也有几百条,个人比较认同上面朋友说的从论坛现成OALD4词典(不必是圣诞版)中重新提取TXT。音标错误,简繁错误和字符显示不正常等等问题都是因为楼主的底本质量不佳导致。

1 Like

说漏了上千词条的依据是什么?我统计过yru制作的《牛津高阶英汉双解词典 第4版插图版》,其正规词头22297,短语、衍生词这种词头22408,共计44705,OX-3目前统计词头44060个,但有88174行,那么可能词头数也许有88174/2 = 44087,并没有差距上千之多。而且OX-3有一些短语实际上存在,只是没从主词条当中分离出来单列带★词头。

1 Like

我贴一下几个牛高4文本的比较,以misplace词条为例,直接从goldendict复制:

A)OX-3文本

★misplace
/ˌmɪsˈpleɪs; mɪsˈples/ v (fml 文) [Tn esp passive 尤用於被动语态] 1 put (sth) in the wrong place 将(某物)放错地方: I’ve misplaced my glasses they’re not in my bag. 我把眼镜放错地方了–没在我的包里. 2 give (love, affection, etc) wrongly or unwisely 错误地或愚 地付出(爱情、 情感等): misplaced admiration, trust, confidence, etc 不应有的崇拜、 信任、 信心等. 3 use (words or actions) unsuitably 用词或行事不当: If you think deafness is funny, you’ve got a very misplaced sense of humour. 假若认为耳聋有趣, 这种幽默感十分不当.

B)yru 《牛津高阶英汉双解词典 第4版插图版》

misplace

/ 9mIs5pleIs; mIs`ples/ v (fml 文) [Tn esp passive 尤用於被动语态]
put (sth) in the wrong place 将(某物)放错地方: I’ve misplaced my glasses they’re not in my bag. 我把眼镜放错地方了–没在我的包里.
give (love, affection, etc) wrongly or unwisely 错误地或愚眛地付出(爱情﹑ 情感等): misplaced admiration, trust, confidence, etc 不应有的崇拜﹑ 信任﹑ 信心等.
use (words or actions) unsuitably 用词或行事不当: If you think deafness is funny, you’ve got a very misplaced sense of humour. 假若认为耳聋有趣, 这种幽默感十分不当.

C)本论坛版本,2021‎年‎11‎月‎30‎日下载

misplaceˌmɪsˈpleɪs; mɪsˈples
v
fmlTnesp passive
put (sth) in the wrong place 将(某物)放错地方:
I’ve misplaced my glasses they’re not in my bag.我把眼镜放错地方了–没在我的包里。
give (love, affection, etc) wrongly or unwisely 错误地或愚眛地付出(爱情、情感等):
misplaced admiration, trust, confidence, etc不应有的崇拜、信任、信心等。
use (words or actions) unsuitably 用词或行事不当:
If you think deafness is funny, you’ve got a very misplaced sense of humour.假若认为耳聋有趣,这种幽默感十分不当。

可见yru版并没有把金山音标私码改成unicode,需要加载金山字体使用,但自它开始,就已经使用伪类给义项编码了,导致复制出来的文本这些编号消失。

本论坛的版本,在使用伪类、js上更上一层楼,所以复制出来的文本,不但没有义项编号,连“ (fml 文) [Tn esp passive 尤用於被动语态] ”,也变成了“fmlTnesp passive”,音标两边的 / 符号同样消失了。

三者在愚昧的“昧”字上全是错的,但错的方式迥异。

如果mdx只是用css伪类给义项自动生成编号,既然同样是代码,用程序逆向把1、2、3这些编号加回去也不难,令人头大的是这样的伪类、js生成的文字有很多种,还要保证这样的逆向还原工作不出错。另外,像endnote在做的版本,把原文本词组里的重音符号都给删了,这有数千上万个,要再正确还原加回去是很困难的。

1 Like

以少见多,用A-G各举一例,供楼主改进完善吧aniseed,broomstick,cheery,despot,embrace,federal,garlic可以对比大神endnote的版本。

感谢您的付出,百花齐放更精彩(^ω^)

OX-4版本主要处理了三个问题:

1)继续纠正音标乱码修复过程中的毛病,查出上一版中未曾修正的失误有200-300个左右。

2)处理繁简转换未彻底导致的遗留事项。要说具体有多少繁体字未完成转换,不清楚,但比较明显的有“後、於、麽、著、乾、覆”等,这些字里“著”比较难对付,既作“着”用,也作“著名、著作”等用,凡3000余处。简单通改是行不通的,即使先拟定一个包含“著”的词汇表,再替换,也很容易出问题,因为文中很可能出现你假想的词汇之外其他“著”的用法,像牛高4其他版本中,有“拙着”(拙著,见immodest词条)这样的表述,而包含“著”的成语基本上全改错了。我采用的办法是通览所有3000多个含有“著”一字的句子,看看文中真正用作“著”的词汇有哪些,查找出来再遮掩住修改。词典中“著”用法的词汇统计结果如下:

土著
原著
著名
新著
显著
著者
著作
著称
名著
著述
巨著
拙著

臭名昭著
所著之书
恶名昭著

名声卓著
声誉卓著

3)英文不规范的引号修正。改`today’中左单引号的 ` 为 ’ ,当然,严格来说,这依然是不规范的(可搜索直引号和弯引号的区别),但起码与原文中的右单引号保持了一致。凡500余处。

想了一下,不打算修改原文中文部分所使用的标点符号,1)与纸本一致,2)数量大,容易漏改或误伤,3)算个人爱好问题,不喜欢或不习惯可以自己改。

因中文编码而引致的显示不正常字符计划下一版本修正,它数量不少,改起来要一一查书确认,比较麻烦,单独出一个版本也有利于纠谬。

2 Likes

我把下载链接贴在此处:Z-Library single sign on

也提供一份解出来的txt文件,供参考比较:
Oxford4繁体.txt (14.9 MB)

2 Likes

兄台可以用Emeditor的“筛选”功能,集中显示包含“著”的地方

emeditor的“筛选”功能不错,我经常在编辑文档时使用,不过我在浏览“著”的用法时使用的方法是正则提取“著”及其前后各3-4个字符,然后在新建文件里看,直接“筛选”产生的冗余不必要字符过多。

2 Likes

感谢楼主的辛苦付出,期待

更新:

OX-5版本主要集中处理因编码而导致的异常字符,大概可能有500-600个(除显示为空白的,也有显示为问号的),一一根据原书校正,顺便修复了若干其他字符错误。另外,发现几处词条重复,予以删除,也有词条不完整的,如vote,根据繁体epub版补充。

怎么不用原版光盘补充呢?

原始光盘这种20年前的老古董现在很难用的,好像是32位的程序,win 10已经无法运行,要用虚拟机装XP系统,然后安装。setup之后,把文本复制出来也许还要装程序,我早把电脑上的VMware虚拟机删除了,速度慢性能太差,如今也不爱尝试乱七八糟的新玩意了。

2 Likes

牛高4的文本先天根基差,无论是纯文本还是mdx,把它修正完美几乎是不可能的。总共400-500万字,相当于20-30本常规书籍,除非机构操作,普通人又一般不大可能对着书通读把它校对一遍,各种隐藏的错误防不胜防,像单词粘连,全角半角字符,标点后留空格还是不留空格,各种特殊符号等,经过屡次业余校订,我认为只能达到基本可用基本可靠状态。

1 Like