真·新年礼物 oald3不完美但还能用纯文字版

------- 制作缘起及过程 -------

OALD3是我很喜欢的一本老词典,估计很多同好pdf或图片版早已有之,但使用的极大不便让这本经典无法发挥应有的能量,拥有纯文字版估计是很多朋友的美好愿望。

这个纯文字版产生自一时脑热,梁静茹都没给我勇气,某一天突然想试试文本化OALD3。OCR、清洗html标签,精校词头2个多月,前后大半年的一点点改错,这是一个无数次想放弃的痛苦过程。目前字头A、X、Y、Z完成校对,其他字头修订了可批量处理的问题,虽错误仍然不少,但基本能用了。由于今年个人工作学习任务比较繁重,后续无心也无力再花时间进行剩余部分校对。虽不完美,但如果能让OALD3爱好者早一天用上这本好词典也是一件好事,故而在 2022年新年的第一天把它分享出来。

OCR来源是朋友给我的一个巨大的图片版,质量较为清晰,看mdx作者介绍是隔壁klwo2,在此表示感谢。由于图书年代久远,OCR效果肯定比不上近些年出版的新书。英语部分音标乱码,文本中保留但做了css隐藏。不过英语正文绝大部分识别良好。汉字部分由于是几十年前的字形,又是繁体,识别产生各种错误层出不穷,空余时间能处理到今天这个状态实属不易。

------- OALD3 具体好在哪里?-------

它的使用对象是中高级英语学习者,拥有COD的特点,释义纯正,比起OALD4更不迁就基础较弱的小白。搭配结构紧凑详尽,例句质量高,并且很多例句还有进一步的英文解释,手把手帮助学习者领会消化。

除了这些优点,OALD3还有一个重要之处,就是 Hornby 的动词模式,Hornby专门写了一部 Guide to Patterns and Usage in English,中译《英语句型和惯用法》(皆有pdf可搜索下载), 其中动词部分详尽描述了英语动词的搭配模式,对学习提高有极大的帮助。OALD3则是 Hornby 的封山之作,动词模式在词典一级得到了淋漓尽致的体现。OALD4 也有动词模式,但为了更照顾学习者,在 Hornby 基础上对所有模式进行重新命名,并做了删减,可以说既有亮点也有遗憾。如今的OALD9、10,虽然有对小白友好的动词搭配呈现方式,但由于缺乏Hornby这种系统性的分类,往往起不到既见树木又见森林的效果。总的来说OALD3、4甚至和OALD9或10同时参看,会对动词模式有深刻的认识。

目前这本文本化的OALD3的状态:纯文字简体版,字头A、X、Y、Z文本完成校对,所有词头精校,所有动词模式精校,html标签基本替换为简短的xml标签,以便更有利于正则处理。未校对部分的词条难免时不时有OCR错误。另外汉译部分由于是几十年前的港译,极具年代感,有些译法风格现在看来比较生硬,但瑕不掩瑜,并不影响这部词典的价值。

------- 为学习而用就好,不完美是常态 -------

这本OALD3未校对部分错误难免,但与我而言已经堪用,结合OALD4使用感觉还不错。如果是完美主义者,估计不太会接受,那么大可不必下载或使用,不喜勿喷,忽略即可。

制作分享这本词典,为的是促进有缘之人的英语学习,不求什么名什么利。祝各位新年快乐,同时也希望 Freemdict 之前来之不易的良好氛围在新的一年能够持续,甚至发扬光大。

oald3.zip (11.4 MB)

图片版见7楼 shiruxue 分享的链接

25 个赞

不错的词典 谢谢大侠分享 祝你好运连连

1 个赞

祝大侠新年快乐,事事顺意。

1 个赞

不知网友有没有保留繁体版的最后文本?

转自《牛津現代高級英漢雙解辭典》?
如果是那就情怀满满了:原作者A. S. Hornby的最后一版;中文主编是张芳杰!

1 个赞

谢谢,如果能提供原始的图片文件就更好了,别的感兴趣的人就能接手你的工作继续清洗整理文本数据,使其更完善。

OALD4 +和朗文这些我觉得进入了一个误区,dumb down,迎合小白,越来越啰嗦繁芜,好像试图在一部词典里彻底解决一个词汇的语义、用法等问题,把你困在详细阅读词典里,而不是尽快摆脱词典去读你真正感兴趣的文章,但实际上词典无法教会你说和写,大量的使用、听说读写英文本身才行。

3 个赞

链接:https://pan.baidu.com/s/1HNtMtkAC8vmkYcQRoCdhjA
提取码:ikfy

5 个赞

古人云“得月忘指,登岸弃筏”,词典本来是服务于阅读目的(end)的工具(means),但逐渐这个means来喧宾夺主了,成为目的本身,看词典比看书看文章还多,囤积词典花费无数时间和精力,却很少用,更少去阅读正儿八经的中文文章和英文文章。

2 个赞

谢谢分享oald3 新年快乐

原来的网盘地址忘了,重新上传网速又太慢,就偷了个懒。

谢谢 shiruxue 补上图片版地址。后面如有朋友继续修订,当然欢迎,就是比较艰巨,建议慎重。

可能日后会出现比较厉害的基于 AI 的智能OCR识别,这种老书都能圆满搞定,姑且在这里先做个梦吧。

1 个赞

感谢楼主无私的分享。

1 个赞

现在的神经网络、AI智能其实反而是基于OCR的,卷积网络101,就是训练识别0-9 十个数字,建立起“杂多”➜“若干”之间一个复杂的映射,映射结果聚族分成的类别越少越简单越好,这样把它们分辨开的各自特征就越明显。英文只有26个字符,若干标点,OCR的难度比起中文数万个字符就容易得多,中英混合文本识别更复杂。英文OCR还有一个优势是词的边界界定明确,识别结果还可以用词汇表校正,中文组词的灵活性则高很多,用中文词汇表来校正《汉语大词典》基本抓瞎。

现在AI(神经网络)应用于OCR最根本的问题是AI缺乏或者没有人对文本、意义的理解,人识别文本,不单是靠字形、词汇表,更靠语境和文本试图传达的意义(connotation),是在具体情境里确认某处正确的字词的,目前的机器学习没有这个能力。

不过,足够的算力似乎可以弥补这一缺陷,比如用多个OCR引擎互校,设计引入语法校对和具有完形填空能力的神经网络,训练专门的词典文本识别模型,针对某些常见错误特别训练,就某些字体训练,用订制的词汇表,等,但这些是个人使用者通常难以解决的。

5 个赞

2022新年快乐!谢谢分享 谢谢

1 个赞

2022新年快乐!谢谢樓主分享

楼主发的这个mdx能把中文去掉么?只留英文原版?

1 个赞

请问楼主,这排版CSS可以让英文例句往右边缩进一点吗?我按往常的CSS操作不行,不太会弄。

感谢lz :grinning:让经典重见天日。

繁体版序言

Oxford Advanced Learner’s Dictionary of Current English 於 1963 年二版問世後,因適合讀者需要,較諸第一版更受歡迎。為求精進完善,主編郝恩貝(A. S. Hornby)先生在數年後又著手修訂的工作,於 1974 年推出了第三版。三版曾對二版作大幅度的修訂,不僅增添約四分之一的新字或定義,納入流行的美語及科技方面的新詞,而且重新處理過原有子條的定義和例句。此外還增加動詞型別,改進注音,加強用法說明,並充實附錄。整個言之,三版與二版間的變動不遜於二版之於一版,此種修訂,尤以常用的動詞為甚。

三版問世後不久,東華書局的主人卓鑫淼先生即邀約我和部分同仁共同擔任重新編譯的工作。我們邀請了劉錫炳先生、林炳錚先生、滕以魯先生、陳永昭先生、張先信先生負責編輯。他們五位不但都是中英文造詣很深的專家,翻譯經驗豐富,而且都曾參與過二版的編輯工作。他們於教學之餘,再次參加這項工作,謹此誌謝。我們從 1975 年開始,約三年而脫稿。然而實際的工作卻延續了三四年,原因是 Oxford Advanced Learner’s Dictionary 第三版在 1974 年出版後,屢經再版,至 1982 年已是第十六次再版。於 1980 年第十一次再版時,並曾作大幅度修訂,重新排版。為配合時效,修訂後的資料自倫敦寄來後,我們經過迻譯再補充在原稿內,如此往返費時,也是本詞典遲未問世的原因之一。

本辭典歷經七載始出版的另一原因是東華卓鑫淼先生處事的態度。他為人嚴謹,做事認真負責,故對校對工作要求極為嚴格,希望精益求精,將錯誤減少至最低。他特別邀請張先信先生主持校補工作,另請鄭瑞玲女士和張惠鍞女士擔任助理編輯,他們共同整理原稿,統一體例,發掘問題,加註 Kenyon and Knott 音標,鄭瑞玲女士並負責人名地名之編譯。 Oxford Advanced Learner’s Dictionary 新版中疏誤之處,我們均徵得原編者的同意,一一予以訂正。我們特別感謝東華編輯部同仁吳疊彬、梁屏仙、吳錦玲、潘蓮丹、譚遠祥、陳玉梅、王嘉芊、徐秀姬、陳麓玲、潘憲政、孫曉賢、徐中秀、戴茉莉等在四年多的校對過程中所作的努力,他們備極辛勞,對整個辭典反復精心校對,並提供許多寶貴意見,對本辭典貢獻良多。

我們也很感謝東華書局的總編輯徐萬善先生,他為本辭典的聯絡與協調工作,經常奔波。此外東華編輯部的工作同仁芮黎華、許明月、林秀愛、許桂香、孫麓雲、呂德敏、蕭怡真、繆瑜英、林清娟、陳麓俐、王素美、劉四貴等均參加了剪貼原稿工作,也頗辛苦,在此一併致謝。

在本辭典的誕生過程中,我們仍本信實負責的原則,各項問題的處理,儘量做到一絲不苟,往往花費三五日尋求解決一個小小疑難。誠如二版序言中所稱:「一個編輯英漢字典的人所遭遇的各種困煩,我們大部分都遇到了,而且我們有時覺得比在編輯其他英漢字典的時候,受到更多的束縛限制。」我們相信已盡最大的努力,但是疏漏之處,在所難免,尚希海內外讀者不吝指正。

張芳傑

3 个赞

感谢你修改css,这样排版看着舒服些。

1 个赞

可以把全部中文屏蔽掉,只保留英文么?

阅读是一种乐趣,如果阅读词典可以得到同样的享受,何乐而不为呢。