省流:这是一个把双解词典纸质版里的中文译文搬到英文电子版的项目。目前(2023-09-08)第二阶段还在进行中,但基本已经停滞(OP本人对是否有必要完成这个项目产生了自我怀疑),只建议有充足时间和精力的同学参与。如果后续所有数据录入完,我会把它更新到成品中。
现在最新的成品版本仍是 2022-10-13 更新的:FreeMdict Cloud
以下为原帖内容
协作接力第一阶段——释义中译(已完成录入)
初步匹配的效果比较理想,所以在这里发起协作接力。总共35651个释义,匹配到了33802个,只剩1849个需要录入,我感觉只要这个论坛不倒,这个接力项目一定会完成。
前情:【过时,请勿回复】Longman Active Study Dictionary 5th 例句中译版
附件是这两天的所有成果。如果你觉得这本词典不错想要完善他,欢迎加入协作接力。我估算了一下总共需要十几个小时吧,几个人分工,负担不会太重。我在词典里放了个简易的导航栏,可以提高一点工作效率。
要参加的同学请在此贴下回复承包的序号范围(在M0001~M1849之间),先占位,以免重复劳动。
也可以先领10个体验一下,不限时间,随缘协作。
lasd.mdx (8.9 MB)
lasd.css (16.6 KB)
协作总表:FreeMdict Cloud
作为参照的朗文进阶英汉双解词典可从此处下载 Index of /Recommend/lasecd5_p/ver1/online_img_ver/
以下序号已领取:
M0001~M0402
M1696~M1705
"第一阶段小结“
我们花了三天时间完成了所有1849个释义中译的录入,其中1728个来自LASD5繁体双解版,剩余121个采用了LDOCE和其他词典比较接近的释义。(每个释义的来源都标注了出处,可放心使用)
感谢各位的协助:mdict6、6lj6、Impact、xliley、alexpeng、pesticide4、syszzf、medp7060、有你真好、Fince …… 同时感谢 hua 指导我们使用cloud.freemdict 平台共享协作数据
在录入中译的过程中我们也发现了其他问题,并尝试解决了其中一部分:
➀ #26 6lj6 发现部分音标中有乱码。——已解决
➁ #34 mdictfan 指出这本词典的动词vi,vt标错了。——在#125 medp7086 的帮助下修复了1157个intransitive标签
③ #105 Fince 发现pointed例句译文错误,后来 #108 又发现pointed的释义也有错误“a direct way”变成了“an indirect way” ——手动修复了此处文本错误,但我们有理由认为这本词典的其他地方还存在类似文本错误,虽然我个人认为出错的范围应该不大 #110,但大家使用这本词典的时候还是要多加思考,遇到有疑问的地方可以对照其他词典。
协作接力第二阶段——Thesaurus(同类词):
开启第二阶段是为了给想要完善这本词典的同学提供一个可行的途径,至于能不能完成,具体什么时候完成,真的是随缘啦。
Thesaurus概况:
在LASD5电子版词典中,Thesaurus的结构主要分成thesbox、section、exponent三层
可能是为了便于阅读,LASD5电子版词典大量复用了thesbox的各个部分。有时候会把thesbox拆散了重新组合,或者提取section中的几个exponent组成新的section。复用的花样挺多的。而纸质版的词典受限于篇幅做了一定的精简,基本上不存在这种重复的内容。这就导致了实际上电子版中有的thesbox,大多数在纸质版的相应位置是空的。这两天为了找对两者的对应关系着实费了不少脑筋。不过也对电子词典和纸质版词典的差异有了更多具体的认识。
整本词典有10217个exponent,经过整理后,得到了3033个独立的exponent,这意味着需要手工录入的释义数量也是3033个,比上次粗略估算的4963少了很多。同时我也把相关的4755个例句一并提取了。
后来又发现有403个exponent有可能是电子版独有的,纸质版删减了。(我把这部分内容排在协作总表相对靠后的位置,等有时间再细找,不过最后可能还是会因找不到译文而不用录入)
预计工作量:thesbox释义中译需要二十多个小时,相关的例句需要四十多个小时。
如果要完成所有的释义+例句,工作量是上次的三倍多,若只完成释义部分则相对轻松一些。但同类词专栏的内容比较集中,会比上次省很多翻找的时间,估计录入速度应该会快一些
参与协作需要下载专为此次协作制作的mdx和css:
lasd-t.mdx (870.4 KB)
lasd-t.css (19.2 KB)
作为参照的朗文进阶英汉双解词典可从此处下载 Index of /Recommend/lasecd5_p/ver1/
协作总表还是之前那个文件,我在内部新建了一张工作表 FreeMdict Cloud
中译录入画面预览: