林语堂的《当代汉英词典》

若论汉英词典的质量,林语堂的《当代汉英词典》一定是数一数二的(另一本应该算是《ABC汉英大词典》了)。并且考虑到其出版年代,开创性更是后来者无法匹敌的。不明白为什么很多人都很痴迷《汉英大词典》、《新世纪汉英大词典》这些陈陈相因的大路货,制作了一版又一版,而对林语堂的这本兴趣寥寥?貌似全网目前就只有pdawiki有人做过,但只能说差强人意。若有高人能把原始网站的表格数据以更好的形式呈现出来(比如去掉表格控制),并完整提取次级条目,必将为论坛再添一部大作。
http://humanum.arts.cuhk.edu.hk/Lexis/Lindict/ 网站数据一直都在,万事俱备,只欠东风。大神们,请出手吧。

2 Likes

支持,这部经典、充满文学气息、独一无二的汉英词典非常值得开垦优化下,让她焕发新的生命力,造福莘莘学子啊

隔壁的版本用起来挺好的,一直在使用

#4 楼提到的的版本:
中文单字头 7287 个,与官网一致,但有4个big5编码的词条乱码或者无法显示(从中提取的词组亦是),这四个词条为:「坃」「廴」「呭」「嶶」
4big5.7z (18.2 KB)

英文词头 22241 个,与官网一致。

次级条目好像已经提取了呀。
英文词头下的都是中文词条的简化版,不用提取。中文词头下的词组也已经提取了。

3 Likes

解包隔壁的版本,不能正确显示的文字很多。。。。好像不仅仅这四个

我只统计了单字头索引,是4个。
剩下的索引都有utf8编码的。

1 Like

同求. 原版提取不完全, 例如:comm_lin.txt (148.6 KB)

YES!

hua大这次做工精细啊。内容样式均属上乘。感谢。

愿意完善的可以联系我,用最新的数据重新提取。

难点:
中文没有标签,跟词性、语法信息等混在一起;
一些中文是图片;
含标点符号的需要特殊处理;
源文件有小错误;

要耐心,要时间。

2 Likes