转发:牛津高阶双解第四版光盘数据简单分析和提取

感谢 tsiank

牛津高阶双解第四版光盘数据简单分析和提取

(出处: 掌上百科 - PDAWIKI)

4 Likes

厉害,辛苦tsiank了。我以前在校改牛高4的时候动过重新从光盘提取文本的念头,但没装虚拟机,高估了原始光盘加密的水平,也低估了从垃圾文件底本校改修正的巨大工作量,结果掉进了一个天坑。

貌似tsiank提取的html文件没有修正音标,我此前写过一个相关script,应该继续有效,贴在这里。

#!/usr/bin/env python
# -*- coding: utf-8 -*-


"""
OALD4原始文档音标使用了"Kingsoft Phonetic Plain"字体,
导致不安装该字体的电脑会出现乱码,在此批量替换修正。
金山词霸音标字体编码表可参见 http://www.fmddlmyy.cn/text66.html ,
不过在此处改正OALD4使用的替换表略有不同。

"""


import re


def converter(match):
    phonetic_string = match.group()
    correct_symbol = phonetic_string.replace('5', 'ˈ')\
        .replace('7', 'ˌ').replace('9', 'ˌ')\
        .replace('A', 'æ').replace('B', 'ɑ')\
        .replace('C', 'ɒ').replace('E', 'ə')\
        .replace('F', 'ʃ').replace('I', 'ɪ')\
        .replace('J', 'u').replace('N', 'ŋ')\
        .replace('Q', 'ʌ').replace('R', 'ɔ')\
        .replace('T', 'ð').replace('U', 'ʊ')\
        .replace('V', 'ʒ').replace('W', 'θ')\
        .replace('Z', 'ɛ').replace('\\', 'ɜ')\
        .replace('^', 'ɡ').replace(':', 'ː')\
        .replace('[', 'ɝ').replace('L', 'ɚ')\
        .replace('?@', 'US').replace('`', 'ˈ')

    return correct_symbol


def main():
    file_src = r'C:\Users\xxx\Desktop\01.txt'
    file_dst = r'C:\Users\xxx\Desktop\02.txt'

    with open(file_src, 'r', encoding='UTF-8') as f:
        text = f.read()

        p = re.compile('/ <pho>.*?</pho>/')

        result = re.sub(p, converter, text)

    with open(file_dst, 'w', encoding='UTF-8') as fo:
        fo.write(result)


if __name__ == '__main__':
    main()
5 Likes

出手了吗?看来感兴趣的坛友不多啊!

1 Like

我对它本身的质量现在存疑:

  1. 收词收义少
    1. rain check 查不到
    2. tell me about it 查不到
  2. 不更新,已经描述不了近20年的互联网加持下的语言的飞速地演化、迭代
  3. 没有例句发音,它少了很多内容,因为老,但是例句发音这个少了,语气、短语的分隔停顿,升调连读等都是携带了信息的,它没有,就要求ESL的使用者自带这个技能,很显然,ALD的使用者就是初级才用ALD的,很难处理好这方面,最后只能看文字,学成了之后听和说都得重新校正,只能用在写和读上,自废了耳朵和嘴巴,只用了手和眼。

不看少的部分,至今还没看出它翻译比同类竞品高的地方,应该跟我使用的少有关系,我再慢慢发现吧。

OALD的众多的译者中能被广大读者记住的恐怕只有第四版的李北达先生了,而第四版也是霍恩比原版的最后一版,第6版以后的版本与前四版已有很大的不同。

对,我现在就很奇怪,除了当年那个环境下的盛名,现在再看得话,是不是还是个好选择。

个例1:
image

个例2:
the cambridge grammar of the english language 中的两个the

  • OALD4
    image
    image
  • LDOCE5
    image

OALD4的the…of…解释的更好(更专业准确,不像ESL词典。。)

the 不如LDOCE5的所采用的动词“明确”。(因为OALD4的“特指”对应泛指,特什么?为什么要特?esp.的特?怎样的特?都是一样普通的东西,怎么我一说起它,用了个the把它变成 特 了?所以还是因为在原来更模糊的指代中,再次更明确标记后面的名词, 进一步限定单词所指事物的范围)

推崇牛四的都是英语本就特别好的人。

四十岁之后不滞于物,草木竹石均可为剑。自此精进,渐入无剑胜有剑之境。
包括我在内的普通人,还是老老实实用较新的学习型词典吧,单位时间受益更多。

如果一个人不练剑了,一定是有了更好的凭借

  1. 更深层的,能够控制用剑人的补给。军事、后勤财政分离。
  2. 同层面的更好的替换:步枪

那你的航母呢?

嗯,以前同时装过牛津高阶精灵(牛7)和朗5,牛7用得多些,学习型词典有个问题,解释得很绕。现在用欧路,蓝登书屋大学词典很好用。

LDOCE啊,上面不是在和OALD4对比吗

the Cambridge grammar of the English language

继续对比第二个词 cambridge

  1. OALD4直接没这个词。
  2. LDOCE 中,image

很明确的讲这是英国剑桥所在的剑桥大学(出版的语法书)

第三个词 grammar

没看出差别来,就是语法书

第四个词 of

image

image
image

这里目前受水平所限,无法知晓它到底是描述,还是涉及。

这个of通过这里的几个释义,其意思为一对多模型单拿出的一条对应关系:一对一

  1. 表明小的“前”的依赖、凭借大的“后”的;被大的包纳:前小后大,前属后占(被占有、拥有),前A后O(AOR:Attribute, Object, Relationship),前子集后全集(Set&Elements 中的)
  2. 前是主体,后对前进行范围的限定、明确条件(也可以理解为关于,关于不就是关于这,不关于那的限定吗)
    1. 前是数量单位的,后为不同物质,two kilos of sugar;前为数量单位的实体物的:a cup of coffee;后接单位的生物:his circle of friends;
    2. 空间地名直接限定的:the city of New York;
    3. 可以对应不同数字的事物:the age of 52, an increase of 3%

这个地方有点意思

  1. 2 kilos of sugar; sugar of 2 kilos ??? 能不能这么限定?这一堆糖中,2公斤的那堆糖。
  2. the age of 52; 52 of the age ???

只要能 1 对 多,1 就可以放前面,另一个用 多 中的一个来限定。如果对方问你的年龄这栏的数字不清楚。回答说:The 52 of the age is definitely clear. ???

继续,作品类的

  • the plays of Shakespeare,歌剧中莎翁的作品。那么 the Shakespeare of plays, 那就是名叫Shakespeare的歌剧?
  • a map of Indonesia,都是类似用法,只不过限定的事物从文化的作品归属作者又转到作品的自身内容的的限定上了。不是限定R,就是限定A。
  • the cancellation of the meeting 这还单列一条,解释的还用什么动作施动词又是对象,简直不知道什么人翻译的,这就是限定cancellation,这解释非要扯什么主动被动,什么能当名词谁就是前面被限定的词啊,动词一般都是时序下的主动词,被动词常常都是作副词,哪见什么名词,那可不就是只有一种动名词。这就跟老板发工资的时候,你强调自己是一名优秀的父亲一样,对吗?对,但是在这里不沾边,说了没用,在这里你就是被发工资的员工角色,你扯些乱七八糟的什么主动对象干啥。难不成这取消还能是SVO里的S吗?那回溯顺序可以用by via from. 这些翻译,不对,这个原文就是这个逻辑,明明一个思维模型能解决的事,非要搞出新的另一套模型让我找不到北是吧。
  • the ringing of the phone, 不就是不及物动词,就自己在玩,当然这里形容自己了。
  • been frightened of spiders 也是限定是哪种恐惧。重要的是这不是名词+of了,而是 v…of…这个核心点也不明指出来。本来事物就自有多级结构,LDOCE做的真是引人归纳整理啊,自己就不写了。
  • the day of the accident,又回到老模型,限定名词,这个限定的对象是时间。问题是有必要列举成单个义项吗?有,给的例句分好类了,当然给的越多越好,多了只要结构清晰,我可以选哪些不看,少了让我自己造句吗?
  • To the left of the sofa is a table. ADJ.加点东西变成名词,这回of修饰的是啥,得看完这本语法书应该就能搞清了。
  • Albright was seen as a woman of great determination. 这跟上面的可能易混淆,很简单,多对多情况下可以拆出双向的1对多,所以两者位置可以互换,看想强调什么。
  • He has two children, a boy of 12 and a girl of 15. 搞清了of是用来限定的,不管是从从同类中由后面的A限定,还是由与其他O的R(空间包含、种属、子集)限定,还是A是常用的哪一种。
  • It was kind of you to remember my birthday.
  • the people of China
  • King Philip II of Spain

the Cambridge grammar of the English Language 剑桥的众多的语法书中,介绍英语的那本语法书。而不是(英语语法书中,剑桥的那本)这里不知道为什么不简写成 the cambridge grammar of English ,如 the oxford dictionary of english 一样。???

  • the 27th of July, 12个月中的诸多个27号中,July的那个27号,为什么不能理解为1个27对多个月呢,因为27只能是每个月的27号,是每个月对应1,2,3…27…,而不是27号能对应多个12个月,这个顺序是逆向来的,存在,但不如自然顺序更通用,英语已经要包含很多内容了,再在细枝末节上加规则,得不偿失。
  • It’s a quarter of seven (=6.45). 这时间风格跟国际格格不入啊,6:45是已经过去的,而这里选了另一个顺序:多少就到未来了。
  • He died of cancer. 又是一个修饰动词的of,还是整句???
  • a dress of pure silk. 材质的限定。
    We often used to walk by the river of an evening. 这限定的啥,隐藏的时间,默认限定时间从任意限定到an evening. 跟 the的限定一样奇怪,一会这个规则,一会又是那个。一会明示,一会省略,看来英语也不傻啊,那为啥不让我省略a the books的数量标记!

看看OALD4的

  • (after a n referring to sb’s rights or duties 用于表示某人的权利或责任的名词之后):
    the role of the teacher教师的职责

这个不是指教师的职责,而是指职责中教师所应担的部分。所以the duty of yours, the duty of mine就统一逻辑了,统一于duty的不同限定范围,而不是分成2个模型的your duty, my duty

the rights of man,指权利中人所拥有的,而非人的权利。

先睡。。

再看看#8的回复

不要用就好啦~~

希望论坛多些事实、数据、对比。

我对无凭据的吹嘘兴趣不大,无论是谁的。但对词典的兴趣还是有的。

牛津词典当然不能收剑桥 :grinning:

1 Like

非常期待!这本词典价值恐怕还包括整本阅读。

记得以前在国外大学图书馆有一本落满了灰的原版OALD第三版,打开之后纸页泛黄。但释义文本与后来的ESL词典相比总有一种说不出的优雅。

安静的下午,一个人坐在图书馆的角落地上,随机读几页,现在还是我无比怀念的时光。

原版第三版词典不厚,字体也不小,普通印刷不是字典纸。握在手里手感很好,不像现在的词典都是大砖头。

后来有更新加了个图片版mdx
走过路过不要再错过。

3 Likes

有人能放一个mdx出来吗

这是tsiank自己建的网站?赞!不过很多文章附后的百度链接都失效了!

这个在哪里,提到的这个网站上没找到啊