Vim
1
Update: 已完成
以下为旧信息 =========
已完成主词条,仅差索引部分,现征集志愿者协助修订,完成后将与参与者分享,并附送前期在本论坛已发布词典的任意一款。
- 修订内容:将已经OCR的PDF索引文件 中的内容复制出来为文本文件,并完成校对,具体格式请参照这个已经复制出来的案例:英语同义词辨析大词典.Link.Index.txt 。
- 要求:每人至少领取20页(总页数115页)
- 说明:
- 任务很简单,就是复制粘贴,并简单校对OCR错误之处,唯一要提醒的注意事项是,该有三角形符号的地方要保留,至于其前后是否有空格无所谓。
- 复制方法:用Adobe Acrobat 直接框起来,然后ctrl+c复制。只有这样才能分栏复制。若大家没有相关软件,也可以另行想办法用你们熟悉的OCR软件进行复制。
8 个赞
我认领1-20页吧。
对了,可否多领一份,多求一份词典?
1 个赞
Vim
5
没有人参与,这个mdx就没有。
有了,自然参与的先享受,没参与的以后才能有,比如后续继续相关活动,或更长时间后开放,或者你们自己交流。
3 个赞
dqg
6
vim兄,我认领41-60页。这次不管什么我也要做好!
确认一下41页是从1485开始吧。
Vim
9
可以。但限制两份吧,毕竟总名额有限,多给其他人机会。
这些任务对于会的人都很简单,只是想通过这种形式,让大家都能有机会获得。
Vim
10
词条都在这个帖子里公开,原材料图片也在论坛里有公开分享,相关工具也都开源了,工具使用的案例也有N多数个公开的。即使未来没有公开最终的mdx,真想要的,分分钟也都能自己制作。
鼓励大家自行利用公开资料制作啊。自己会渔总比等待分发鱼好。
Vim
11
预告另外两个正在处理中的,想要参与的可以关注:
Longman Lexicon of Contemporary English 英汉双解
Oxford Guide to British and American Culture 英汉双解
3 个赞
Vim
13
你这要求多啊,但可以,同时也要求质量高。质量不通过,这次不分享。
那仅剩最后一个名额。
1 个赞
weshor
19
21-40页已经录完26页。
英语同义词辨析大词典.Link.Index21-40录完26.txt (12.6 KB)
备注:
22页3栏正查4
coganomen应为cognomen,已修改
23页2栏倒查7
►commit1的1应为上标
►commit2的2应为上标
24页4栏倒查4
►commit1的1应为上标
1 个赞
太晚看到,任务都领完了。。只好先完成这份了。
已经按照楼下建议修改
已经按照纠错建议修改
其中amdlst一词不知道是什么意思,下方是among,不知道是不是印刷错误。
偶尔出现的数字1或者2是上标
申请分享:
Collins Cobuild English Usage 3rd 中文版 mdx
顺便说一下过程:
导出pdf图像用abbyy加载,
点击绘制表格,避开页码避免干扰ocr,然后用英文识别保存为模板。
保存方式设置为格式化文本,便于快速找到出处地方
用快捷键Alt+↓快速找到错误,同时检查其他可能出现的错误。
最后把保存方式设置为纯文本,因为有多栏,直接复制必定混乱,只能一栏一栏复制。用正则修订剩下的换行错误即可。
其实如果直接分享ABBYY经过上述识别之后的项目包,就能避免大家重复文字识别了,效率会高很多。
英语同义词辨析大词典.Link.Index 1-20 即 到1464最后一个单词song为止 修订版.txt (37.8 KB)
重新修订了一遍m和rn这样的两处错误
1 个赞
@Vim @hkreporter @weshor 上标应该是同一个词的不同词头。我的处理方式是再该词后面加(1)(2)啥的。不过这个很容易用正则处理。