英语同义词辨析大词典【已完成】

英语同义词辨析大词典.demo

Update: 已完成

以下为旧信息 =========

已完成主词条,仅差索引部分,现征集志愿者协助修订,完成后将与参与者分享,并附送前期在本论坛已发布词典的任意一款

  • 修订内容:将已经OCR的PDF索引文件 中的内容复制出来为文本文件,并完成校对,具体格式请参照这个已经复制出来的案例:英语同义词辨析大词典.Link.Index.txt
  • 要求:每人至少领取20页(总页数115页)
  • 说明:
    1. 任务很简单,就是复制粘贴,并简单校对OCR错误之处,唯一要提醒的注意事项是,该有三角形符号的地方要保留,至于其前后是否有空格无所谓。
    2. 复制方法:用Adobe Acrobat 直接框起来,然后ctrl+c复制。只有这样才能分栏复制。若大家没有相关软件,也可以另行想办法用你们熟悉的OCR软件进行复制。
8 个赞

我认领1-20页吧。
对了,可否多领一份,多求一份词典?

1 个赞

您好,我认领21-40页。

1 个赞

我想问一下额,没有参与的人是无法获取吗?

3 个赞

没有人参与,这个mdx就没有。
有了,自然参与的先享受,没参与的以后才能有,比如后续继续相关活动,或更长时间后开放,或者你们自己交流。

3 个赞

vim兄,我认领41-60页。这次不管什么我也要做好!
确认一下41页是从1485开始吧。

是的,页码就是看PDF的绝对页码。

1 个赞

收到!开工了

1 个赞

可以。但限制两份吧,毕竟总名额有限,多给其他人机会。

这些任务对于会的人都很简单,只是想通过这种形式,让大家都能有机会获得。

词条都在这个帖子里公开,原材料图片也在论坛里有公开分享,相关工具也都开源了,工具使用的案例也有N多数个公开的。即使未来没有公开最终的mdx,真想要的,分分钟也都能自己制作。

鼓励大家自行利用公开资料制作啊。自己会渔总比等待分发鱼好。

预告另外两个正在处理中的,想要参与的可以关注:

Longman Lexicon of Contemporary English 英汉双解
Oxford Guide to British and American Culture 英汉双解

3 个赞

你这要求多啊,但可以,同时也要求质量高。质量不通过,这次不分享。
那仅剩最后一个名额。

1 个赞

支持项目,申请任务,不知分配页码是多少

101-115(最后)

好的,今天晚上做 :ok_hand:

1 个赞

本想直接OCR的,奈何效果不好。

21-40页已经录完26页。
英语同义词辨析大词典.Link.Index21-40录完26.txt (12.6 KB)
备注:
22页3栏正查4
coganomen应为cognomen,已修改
23页2栏倒查7
►commit1的1应为上标
►commit2的2应为上标
24页4栏倒查4
►commit1的1应为上标

1 个赞

太晚看到,任务都领完了。。只好先完成这份了。

已经按照楼下建议修改
已经按照纠错建议修改

其中amdlst一词不知道是什么意思,下方是among,不知道是不是印刷错误。
偶尔出现的数字1或者2是上标

申请分享:
Collins Cobuild English Usage 3rd 中文版 mdx

顺便说一下过程:
导出pdf图像用abbyy加载,
点击绘制表格,避开页码避免干扰ocr,然后用英文识别保存为模板。
保存方式设置为格式化文本,便于快速找到出处地方
用快捷键Alt+↓快速找到错误,同时检查其他可能出现的错误。
最后把保存方式设置为纯文本,因为有多栏,直接复制必定混乱,只能一栏一栏复制。用正则修订剩下的换行错误即可。

其实如果直接分享ABBYY经过上述识别之后的项目包,就能避免大家重复文字识别了,效率会高很多。

英语同义词辨析大词典.Link.Index 1-20 即 到1464最后一个单词song为止 修订版.txt (37.8 KB)
重新修订了一遍m和rn这样的两处错误

1 个赞

应该是amidst,amid的异体字。

@Vim @hkreporter @weshor 上标应该是同一个词的不同词头。我的处理方式是再该词后面加(1)(2)啥的。不过这个很容易用正则处理。