牛津高阶第四版增补版文字版pdf

azqeabc · 2022 年1 月 27 日 16:17

看样子是从word导出的PDF，有没有人知道这是哪里来的？

手里还有一本朗文写作，不知道是哪个好心人做的？

mixivivo · 2022 年1 月 27 日 16:28

基本就是早期流传的txt文本在word里排版了一下，然后打印成pdf，质量、可靠性不怎么样，连音标的乱码都没改。

mixivivo · 2022 年1 月 27 日 16:33

alight
/ E5laIt; E`laIt/ adj [pred 作表语] on fire; lit 烧著;
点著: A cigarette set the dry grass alight. 香烟
把乾草点著了. *| Her dress caught alight in the
gas fire. 她的衣服让煤气炉烧著了. *| (fig 比喻)
Their faces were alight with joy. 他们因喜悦而
容光焕发.

像这些讹误，没法正常使用。

mixivivo · 2022 年1 月 29 日 01:49

实际上我上面提到的只是“小问题”，仔细去看一下文件，这个pdf中以“L”开头的单词全部是缺失的，“K”后面接的是“M”。何以如此？是因为起初发布OALD4 txt文件的傻 x 故意把L词条的文件给删了，然后谬种流传。牛津高阶4的TXT文档虽然是此人散布开来的，但我依然要骂他傻 x，你不发布自然有别的人从光盘文件里提取文本，不是没了张屠户，大家都要吃连毛猪肉，既然发布了却搞这么一个阴险的、中间删除的阉割文档，让很多人上当受骗。

炊爱牛 · 2022 年1 月 29 日 01:52

我会扫描一本高清版的，不过需要时间久一些。

dictsun · 2022 年1 月 29 日 02:03

有劳了，恭候佳音。

mixivivo · 2022 年1 月 29 日 02:04

谢谢，那大家是翘首企盼了。除了高清图像版，我觉得一个完整的、相对可靠的纯文本文件也是必要的，可惜从现有的基础上都不容易做到。原始的txt，存在音标乱码、繁简转换错误、词头标识缺漏等问题；那些一直在“完美”的牛高4 mdx，自作聪明把不少原有的符号（比如义项编号）给删了，然后用CSS的伪类生成，比较难还原成原始的、与纸本一致纯文本。

mixivivo · 2022 年1 月 29 日 02:30

我把牛津高阶4 txt文本“L”部分的词条贴一下，是在网上搜到的，略微加以整理。另附修正金山音标乱码的script，“p = re.compile('/.?; .?/ ')”这一句正则需要特别留意，请根据自己的文本实际情况修改，不恰当的话会有很多误伤。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
OALD4原始文档音标使用了"Kingsoft Phonetic Plain"字体，
导致不安装该字体的电脑会出现乱码，在此批量替换修正。
金山词霸音标字体编码表可参见 http://www.fmddlmyy.cn/text66.html （此表有误，需具体调整）

"""

import re


def converter(match):
    phonetic_string = match.group()
    correct_symbol = phonetic_string.replace('5', 'ˈ')\
        .replace('7', 'ˌ').replace('9', 'ˌ')\
        .replace('A', 'æ').replace('B', 'ɑ')\
        .replace('C', 'ɒ').replace('E', 'ə')\
        .replace('F', 'ʃ').replace('I', 'ɪ')\
        .replace('J', 'u').replace('N', 'ŋ')\
        .replace('Q', 'ʌ').replace('R', 'ɔ')\
        .replace('T', 'ð').replace('U', 'ʊ')\
        .replace('V', 'ʒ').replace('W', 'θ')\
        .replace('Z', 'ɛ').replace('\\', 'ɜ')\
        .replace('^', 'ɡ').replace(':', 'ː')\
        .replace('[', 'ɝ').replace('L', 'ɚ')\
        .replace('?@', 'US').replace('`', 'ˈ')

    return correct_symbol


def main():
    file_src = r'C:\Users\xxx\Desktop\oald.txt'
    file_dst = r'C:\Users\xxx\Desktop\oald-2.txt'

    with open(file_src, 'r', encoding='UTF-8') as f:
        text = f.read()

        p = re.compile('/.*?; .*?/ ')      # 建议先用“/ .{1,60}?; .{1,40}?/ ”等，分步修改

        result = re.sub(p, converter, text)

    with open(file_dst, 'w', encoding='UTF-8') as fout:
        fout.write(result)


if __name__ == '__main__':
    main()

OALD4-L词条.txt (525.8 KB)

xiaoyifang · 2022 年1 月 29 日 03:02

zlibrary上搜索
https://hk1lib.org/s/?q=牛津+词典

sakula · 2022 年1 月 29 日 03:18

我有973m 的你需要下午给你。大概看了一下，我这个不缺。

mixivivo · 2022 年1 月 29 日 03:25

你说的是图像版，文本怎么会有973m这么大？图像版pdf我已经有了。

有你真好 · 2022 年1 月 29 日 03:26

果然，那个文字版中没有“L”词条……

sakula · 2022 年1 月 29 日 04:25

有就好，是pdf。我以为没有。

shiruxue · 2022 年1 月 29 日 13:03

可以从第四版光盘中把文本拷出来

adwong · 2022 年1 月 29 日 13:18

其实读秀版 13438057 看着好像也还可以，压缩包有1.4GB：

如有需要，改天上传。

炊爱牛 · 2022 年1 月 29 日 13:43

看着不错麻烦传上来吧，可以的话就不用费事扫了

mixivivo · 2022 年1 月 29 日 13:56

libgen上有一个“ 牛津高階英漢字典”的epub文件，繁体版，它实际上是牛高4，虽然也不太完善（音标乱码、重复词条等），但可能是独立提取的，中文繁体没有妄动。

shiruxue · 2022 年1 月 29 日 14:15

950M的好像就是在此版上用软件“漂白”纸透的。

adwong · 2022 年1 月 29 日 15:10

类似于：【特别】扫描本牛津短语动词词典英汉双解版第二版

shiruxue · 2022 年1 月 29 日 15:14

嗯，处理过的会给人看上去更清晰的假象，但看久了还是原张对眼更舒服。