【已完成】牛津英美文化词典中英双语

Vim · 2021 年11 月 24 日 11:36

牛津英美文化词典.demo

Update 2021/12/19：mdx 已完成

以下为旧信息=============

已完成总体设计，特征集志愿者协助修订词条及与页面匹配工作，参与者只要提交质量OK的修订词条，可立即获得最新的mdx，并附送前期在本论坛或隔壁论坛公开发布词典的任意一款（不包括展示品），或有其他词典制作需求，可纳入后续优先考虑范畴。

修订任务：参照PDF（Aliyun下载或 Baiduyun下载提取码：xg6d），修订页码和词条，使得页面内的相应词条在该页码之后，具体参见下面的模版文件。

（1）英文主词条和三角形开头的衍生词条，请记录至文件：OGBAC.Body.En.txt (12/05更新)
（2）中文翻译词条，请记录至文件 OGBAC.Body.Cn.txt (12/05更新)。
（3）低优先级——主词条正文内的关键词汇（正文中加粗词汇），不必整理，若整理，请记录至文件牛津英美文化词典.Link888.txt (12/05更新)，这里的格式区别于以上两个，附件中有详细格式说明。
任务认领：鉴于篇幅较大（正文共1739页），每人倒序开始认领100页（Update:2021/12/12）。
（1）一切以书籍为准：现有的词条初稿若与中文版不一致，请以中文版书籍为准进行增删改。
（2）若提交任务质量太差，将可能丧失参与资格，并不分享词典。
（3）鉴于讨论可能会比较多，为避免楼层太多，建议大家尽量仅留言必要干货，或删除已过期留言等。
当前进度：P1-500页已完成（2021/12/05更新）

1、类似以下“详见…”的词条（与相应的“长词条”名称相同）跳过（就是删除或不要），因为在该词条附近（前或后）会有真正词条内容所在，我们在那里定义即可。

1c09f51e7ff9d7ad61294ec80fc2da3c8d3a62ee

2、类似以下BA的“详见…”词条（与相应的参见词条名称不同）跳过（就是删除或不要），但写入Link888:

3、以下两种词条，都写入body：

4、以下正文中的加粗关键词汇，写入Link888：

adwong · 2021 年11 月 24 日 12:34

Internet Archive*制作的，一直很好奇这种多图层、仍为像素而非矢量的文字（EDIT：非类似ABBYY的、渲染文字的双层PDF）浮在仿纸背景上的PDF是如何制作出来的。

不然自行扫描？

dictionaryfan · 2021 年11 月 24 日 12:43

就是图片OCR为pdf的，ABBYY就可以
有的识别不一定很准，所以背景还用了图层

adwong · 2021 年11 月 24 日 12:45

不是啦，他这个不是“双层”PDF，你可以下载看看。

dictionaryfan · 2021 年11 月 24 日 13:16

看了，就是OCR识别为PDF的，后面有背景图层，因为是OCR的，文字的图层是在一个大框里面还有各个元素。

adwong · 2021 年11 月 24 日 13:28

我的疑惑在于，仅仅OCR是不会把图像作这种处理的，更好奇这种PDF是如何一步一步生成的。

dictionaryfan · 2021 年11 月 25 日 00:07

问题可能在识别的时候，软件把文字识别成很多块，而不是一个图层，
你如果用ABBYY识别过就知道，我是转换过，然后发现是这样的
它底下是一个压缩过的图片，上面是透明的文字，不一定是单一的一层
还可能保留部分图片做新层
背后的原理你可以再探索

ps:mdx格式可能也是从bgl的那个转过来的

adwong · 2021 年11 月 25 日 00:32

我用过abbyy，知道这个PDF与Abbyy生成的明显不同，所以才好奇。这个跟abbyy关系不大。

Vim · 2021 年11 月 25 日 02:21

感谢各位提供的资料，目前已有英文的pdf bgl mdx，以及中文的pdf。

我已初步整理好图片和词条了。但这本书有点特别：一方面词条并非传统意义上的按字母顺序排列，而是按关键词的字母顺序排列，同时部分词条内部还有子关键词；另一方面，中文版对英文版做了改动（为适应中文情形，以及与时俱进更新内容）。因此后续需要大家的积极参与来修订出符合中文版的词条。

dictionaryfan · 2021 年11 月 25 日 02:38

先认领两份
0001- 0100
做好就求一份同义词辨析的

Vim · 2021 年11 月 25 日 02:42

这次内容有点多，总共1700多页，目前词条仅有英文的（还需要针对PDF文本进行微调增减）。

我也想先问问：是否有必要也加入中文关键词？每个人100页工作量会否太多？还是50页？

西北风 · 2021 年11 月 25 日 03:32

这样比较合适，可以先试试能否召募到足够多的人

Virgalieu · 2021 年11 月 25 日 04:21

Vim · 2021 年11 月 25 日 04:27

原始的bgl是最好的，其他格式转换后有很多重要信息缺失。

adwong · 2021 年11 月 25 日 04:43

一般所说的双层PDF，指的更多的是渲染文字层和图像层。而这个PDF中除了可复制文字层和背景层，还多了一层（目测是）以像素形式构成的图像“文字”层。改天翻翻老马的博客，说不定会有发现。

碧落黄泉 · 2021 年11 月 26 日 15:12

楼主是不是忘记了

weshor · 2021 年11 月 26 日 23:12

您好，认领101-150页。

zhyli · 2021 年11 月 26 日 23:54

认领151-200

dictionaryfan · 2021 年11 月 27 日 00:16

0001
ABA 中文版无发现此词条，修订匹配中文版是否要删去？
我的理解是删去

然后出现在词义中间的黑体是否也当成词条保留？
比如：0014
mature students
open learning
不是主词条，只是出现在词义中间的黑体

zky030600 · 2021 年11 月 27 日 00:20

楼主好，我认领201-250吧！感谢楼主！