Vim
1

Update 2021/12/19:mdx 已完成
以下为旧信息=============
已完成总体设计,特征集志愿者协助修订词条及与页面匹配工作,参与者只要提交质量OK的修订词条,可立即获得最新的mdx,并附送前期在本论坛或隔壁论坛公开发布词典的任意一款(不包括展示品),或有其他词典制作需求,可纳入后续优先考虑范畴。
-
修订任务:参照PDF(Aliyun下载 或 Baiduyun下载 提取码:xg6d),修订页码和词条,使得页面内的相应词条在该页码之后,具体参见下面的模版文件。
(1)英文主词条和三角形开头的衍生词条,请记录至文件:OGBAC.Body.En.txt (12/05更新)
(2)中文翻译词条,请记录至文件 OGBAC.Body.Cn.txt (12/05更新)。
(3)低优先级——主词条正文内的关键词汇(正文中加粗词汇),不必整理,若整理,请记录至文件 牛津英美文化词典.Link888.txt (12/05更新),这里的格式区别于以上两个,附件中有详细格式说明。
-
任务认领:鉴于篇幅较大(正文共1739页),每人倒序开始认领100页(Update:2021/12/12)。
(1)一切以书籍为准:现有的词条初稿若与中文版不一致,请以中文版书籍为准进行增删改。
(2)若提交任务质量太差,将可能丧失参与资格,并不分享词典。
(3)鉴于讨论可能会比较多,为避免楼层太多,建议大家尽量仅留言必要干货,或删除已过期留言等。
-
当前进度:P1-500页已完成(2021/12/05更新)
【重磅活动,分享独家词典,包括展示品及未曾公开的词典】
【特别处理说明】
1、类似以下“详见…”的词条(与相应的“长词条”名称相同)跳过(就是删除或不要),因为在该词条附近(前或后)会有真正词条内容所在,我们在那里定义即可。

2、类似以下BA的“详见…”词条(与相应的参见词条名称不同)跳过(就是删除或不要),但写入Link888:

3、以下两种词条,都写入body:

4、以下正文中的加粗关键词汇,写入Link888:

1 个赞
adwong
2
还好有人上传,不然确实难找:https://1lib.domains/?redirectUrl=/book/17390168/d3c9e7
Internet Archive*制作的,一直很好奇这种多图层、仍为像素而非矢量的文字(EDIT:非类似ABBYY的、渲染文字的双层PDF)浮在仿纸背景上的PDF是如何制作出来的。
不然自行扫描?
就是图片OCR为pdf的,ABBYY就可以
有的识别不一定很准,所以背景还用了图层
adwong
4
不是啦,他这个不是“双层”PDF,你可以下载看看。
看了,就是OCR识别为PDF的,后面有背景图层,因为是OCR的,文字的图层是在一个大框里面还有各个元素。
adwong
6
我的疑惑在于,仅仅OCR是不会把图像作这种处理的,更好奇这种PDF是如何一步一步生成的。
1 个赞
问题可能在识别的时候,软件把文字识别成很多块,而不是一个图层,
你如果用ABBYY识别过就知道,我是转换过,然后发现是这样的
它底下是一个压缩过的图片,上面是透明的文字,不一定是单一的一层
还可能保留部分图片做新层
背后的原理你可以再探索
ps:mdx格式可能也是从bgl的那个转过来的
1 个赞
adwong
8
我用过abbyy,知道这个PDF与Abbyy生成的明显不同,所以才好奇。这个跟abbyy关系不大。
3 个赞
Vim
9
感谢各位提供的资料,目前已有英文的pdf bgl mdx,以及中文的pdf。
我已初步整理好图片和词条了。但这本书有点特别:一方面词条并非传统意义上的按字母顺序排列,而是按关键词的字母顺序排列,同时部分词条内部还有子关键词;另一方面,中文版对英文版做了改动(为适应中文情形,以及与时俱进更新内容)。因此后续需要大家的积极参与来修订出符合中文版的词条。
先认领两份
0001- 0100
做好就求一份同义词辨析的
1 个赞
Vim
11
这次内容有点多,总共1700多页,目前词条仅有英文的(还需要针对PDF文本进行微调增减)。
我也想先问问:是否有必要也加入中文关键词?每个人100页工作量会否太多?还是50页?
1 个赞
Vim
14
原始的bgl是最好的,其他格式转换后有很多重要信息缺失。
adwong
15
一般所说的双层PDF,指的更多的是渲染文字层和图像层。而这个PDF中除了可复制文字层和背景层,还多了一层(目测是)以像素形式构成的图像“文字”层。改天翻翻老马的博客,说不定会有发现。
0001
ABA 中文版无发现此词条, 修订匹配中文版是否要删去?
我的理解是删去
然后出现在词义中间的黑体 是否也当成词条保留?
比如:0014
mature students
open learning
不是主词条,只是出现在词义中间的黑体