牛津高阶第四版增补版文字版pdf

我把牛津高阶4 txt文本“L”部分的词条贴一下,是在网上搜到的,略微加以整理。另附修正金山音标乱码的script,“p = re.compile(’/.?; .?/ ')”这一句正则需要特别留意,请根据自己的文本实际情况修改,不恰当的话会有很多误伤。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
OALD4原始文档音标使用了"Kingsoft Phonetic Plain"字体,
导致不安装该字体的电脑会出现乱码,在此批量替换修正。
金山词霸音标字体编码表可参见 http://www.fmddlmyy.cn/text66.html (此表有误,需具体调整)

"""

import re


def converter(match):
    phonetic_string = match.group()
    correct_symbol = phonetic_string.replace('5', 'ˈ')\
        .replace('7', 'ˌ').replace('9', 'ˌ')\
        .replace('A', 'æ').replace('B', 'ɑ')\
        .replace('C', 'ɒ').replace('E', 'ə')\
        .replace('F', 'ʃ').replace('I', 'ɪ')\
        .replace('J', 'u').replace('N', 'ŋ')\
        .replace('Q', 'ʌ').replace('R', 'ɔ')\
        .replace('T', 'ð').replace('U', 'ʊ')\
        .replace('V', 'ʒ').replace('W', 'θ')\
        .replace('Z', 'ɛ').replace('\\', 'ɜ')\
        .replace('^', 'ɡ').replace(':', 'ː')\
        .replace('[', 'ɝ').replace('L', 'ɚ')\
        .replace('?@', 'US').replace('`', 'ˈ')

    return correct_symbol


def main():
    file_src = r'C:\Users\xxx\Desktop\oald.txt'
    file_dst = r'C:\Users\xxx\Desktop\oald-2.txt'

    with open(file_src, 'r', encoding='UTF-8') as f:
        text = f.read()

        p = re.compile('/.*?; .*?/ ')      # 建议先用“/ .{1,60}?; .{1,40}?/ ”等,分步修改

        result = re.sub(p, converter, text)

    with open(file_dst, 'w', encoding='UTF-8') as fout:
        fout.write(result)


if __name__ == '__main__':
    main()

OALD4-L词条.txt (525.8 KB)

zlibrary上搜索

我有973m 的你需要下午给你。大概看了一下,我这个不缺。

你说的是图像版,文本怎么会有973m这么大?图像版pdf我已经有了。

1 Like

果然,那个文字版中没有“L”词条……

有就好,是pdf。我以为没有。

可以从第四版光盘中把文本拷出来

其实读秀版 13438057 看着好像也还可以,压缩包有1.4GB:

如有需要,改天上传。

1 Like

看着不错:blush:麻烦传上来吧,可以的话就不用费事扫了 :rofl:

1 Like

libgen上有一个“ 牛津高階英漢字典”的epub文件,繁体版,它实际上是牛高4,虽然也不太完善(音标乱码、重复词条等),但可能是独立提取的,中文繁体没有妄动。

950M的好像就是在此版上用软件“漂白”纸透的。

类似于:【特别】扫描本 牛津短语动词词典 英汉双解版 第二版

嗯,处理过的会给人看上去更清晰的假象,但看久了还是原张对眼更舒服。

超星源的扫描书,再怎么清晰也就那样了,300dpi,没法和自扫600dpi+的图像比,而且,这些词典又比较字小,300dpi又要打个折扣。

1 Like

所以只能设法后期补救:https://www.cnblogs.com/stronghorse/p/9425046.html

还是算了:

不能正常解码的文件:
000028.pdg, 000034.pdg, 000043.pdg, 000066.pdg, 000093.pdg, 000269.pdg, 000278.pdg, 000350.pdg, 000451.pdg, 000603.pdg, 000642.pdg, 001317.pdg, 001514.pdg-001515.pdg

可能没有下完的JPG文件:
000083.pdg, 000178.pdg, 000414.pdg, 000473.pdg, 001578.pdg
2 Likes

没什么大关系,如果确实底本较好的话,缺页可以用其他版本补。超星的pdg文件有坏页其实算正常。

1 Like

主要是补全页面用的版本画质都较差,就更不如自行扫描了。

如果只补缺少的页数,比全扫工程量少很多啊!

严格来说不算缺页,因为另一版本存货无损坏或缺失页面。这里主要讨论读秀版画质是否差到需要放弃读秀转而自行扫描。