【已完成】牛津英美文化词典 中英双语

牛津英美文化词典.demo

Update 2021/12/19:mdx 已完成

以下为旧信息=============

已完成总体设计,特征集志愿者协助修订词条及与页面匹配工作,参与者只要提交质量OK的修订词条,可立即获得最新的mdx,并附送前期在本论坛或隔壁论坛公开发布词典的任意一款(不包括展示品),或有其他词典制作需求,可纳入后续优先考虑范畴。

  1. 修订任务:参照PDF(Aliyun下载Baiduyun下载 提取码:xg6d),修订页码和词条,使得页面内的相应词条在该页码之后,具体参见下面的模版文件。

    (1)英文主词条和三角形开头的衍生词条,请记录至文件:OGBAC.Body.En.txt (12/05更新)
    (2)中文翻译词条,请记录至文件 OGBAC.Body.Cn.txt (12/05更新)。
    (3)低优先级——主词条正文内的关键词汇(正文中加粗词汇),不必整理,若整理,请记录至文件 牛津英美文化词典.Link888.txt (12/05更新),这里的格式区别于以上两个,附件中有详细格式说明。

  2. 任务认领:鉴于篇幅较大(正文共1739页),每人倒序开始认领100页(Update:2021/12/12)
    (1)一切以书籍为准:现有的词条初稿若与中文版不一致,请以中文版书籍为准进行增删改。
    (2)若提交任务质量太差,将可能丧失参与资格,并不分享词典。
    (3)鉴于讨论可能会比较多,为避免楼层太多,建议大家尽量仅留言必要干货,或删除已过期留言等。

  3. 当前进度:P1-500页已完成(2021/12/05更新)

【重磅活动,分享独家词典,包括展示品及未曾公开的词典】

【特别处理说明】

1、类似以下“详见…”的词条(与相应的“长词条”名称相同)跳过(就是删除或不要),因为在该词条附近(前或后)会有真正词条内容所在,我们在那里定义即可。

1c09f51e7ff9d7ad61294ec80fc2da3c8d3a62ee

2、类似以下BA的“详见…”词条(与相应的参见词条名称不同)跳过(就是删除或不要),但写入Link888:

image

3、以下两种词条,都写入body:
image

4、以下正文中的加粗关键词汇,写入Link888:
image

1 个赞

还好有人上传,不然确实难找:https://1lib.domains/?redirectUrl=/book/17390168/d3c9e7

Internet Archive*制作的,一直很好奇这种多图层、仍为像素而非矢量的文字(EDIT:非类似ABBYY的、渲染文字的双层PDF)浮在仿纸背景上的PDF是如何制作出来的。

不然自行扫描?

就是图片OCR为pdf的,ABBYY就可以
有的识别不一定很准,所以背景还用了图层

不是啦,他这个不是“双层”PDF,你可以下载看看。

看了,就是OCR识别为PDF的,后面有背景图层,因为是OCR的,文字的图层是在一个大框里面还有各个元素。

我的疑惑在于,仅仅OCR是不会把图像作这种处理的,更好奇这种PDF是如何一步一步生成的。

1 个赞

问题可能在识别的时候,软件把文字识别成很多块,而不是一个图层,
你如果用ABBYY识别过就知道,我是转换过,然后发现是这样的
它底下是一个压缩过的图片,上面是透明的文字,不一定是单一的一层
还可能保留部分图片做新层
背后的原理你可以再探索

ps:mdx格式可能也是从bgl的那个转过来的

1 个赞

我用过abbyy,知道这个PDF与Abbyy生成的明显不同,所以才好奇。这个跟abbyy关系不大。

3 个赞

感谢各位提供的资料,目前已有英文的pdf bgl mdx,以及中文的pdf。

我已初步整理好图片和词条了。但这本书有点特别:一方面词条并非传统意义上的按字母顺序排列,而是按关键词的字母顺序排列,同时部分词条内部还有子关键词;另一方面,中文版对英文版做了改动(为适应中文情形,以及与时俱进更新内容)。因此后续需要大家的积极参与来修订出符合中文版的词条。

先认领两份
0001- 0100
做好就求一份同义词辨析的

1 个赞

这次内容有点多,总共1700多页,目前词条仅有英文的(还需要针对PDF文本进行微调增减)。

我也想先问问:是否有必要也加入中文关键词?每个人100页工作量会否太多?还是50页?

1 个赞

这样比较合适,可以先试试能否召募到足够多的人

stardict-Oxford_Guide_to_British_and_American_Culture-2.4.2.tar.bz2
这个或许能有点用处,也是英文版。

原始的bgl是最好的,其他格式转换后有很多重要信息缺失。

一般所说的双层PDF,指的更多的是渲染文字层和图像层。而这个PDF中除了可复制文字层和背景层,还多了一层(目测是)以像素形式构成的图像“文字”层。改天翻翻老马的博客,说不定会有发现。

楼主是不是忘记了 :rofl:

1 个赞

您好,认领101-150页。

2 个赞

认领151-200

1 个赞

0001
ABA 中文版无发现此词条, 修订匹配中文版是否要删去?
我的理解是删去

然后出现在词义中间的黑体 是否也当成词条保留?
比如:0014
mature students
open learning
不是主词条,只是出现在词义中间的黑体

楼主好,我认领201-250吧!感谢楼主!

1 个赞