自己的帖子自己顶, 哈哈
这个post讲讲 LDOCE6EnEn里面的LLA和书本LLA(指2002年的第二版那本)的关系
首先介绍几个和LLA相关的概念, 这些都是LLA书本里面的, 算是官方的, 不是我自己瞎取的名字. 看过书本的应该都知道.
keyword → section → heading + word or phrase
LLA书本里面由866个keyword组成, 如about, 每个keyword有多个section, 每个section有一个heading, 如"about a subject or person", heading下面有若干个word or phrase
我之前一直想知道到底是哪866个keyword, 书本里面没有list, 在LDOCE6EnEn里面一直提取不出来, 直到下载了下面这个mdx, 才提取出来了.
lla_866_keywords.txt (8.2 KB)
作者Android应该是从LLA书本里面抓取数据得到的这个mdx (我猜测).
下面讲讲我理解的LDOCE6EnEn里面的LLA和书本的关系.
结论就是书本是LDOCE6EnEnLLA的子集, 内容上完全被LDOCE6覆盖了.
(感谢6lj6同学的纠正, 这个结论是错误的. LDOCE6EnEn里面的LLA应该是和书本一样的内容, 但是要证明估计得写程序了, 靠肉眼不行, 或者得问原作者Amazon. 下面的内容已更新/纠正)
LDOCE6EnEn里面共有52747个词条, 其中有THESAURUS类别的"Longman Language Activator"有13199个词条, 有的单词有多个词性, 每个词性都有"Longman Language Activator", 去掉重复的有12000个整. 即有12000个单词在LDOCE6EnEn里面有对应的LLA. 也就是说里面有52747-12000 = 40747个单词是没有LLA的.
我没有仔细比对过这12000和866, 应该是全部包含了.
lla_key_no_dup_ordered.txt (118.5 KB)
具体到单个单词(keyword)上, 比如burn, LDOCE6里面有13条section, LLA书本里面只有10条. 在这个ldoce6里面的thesauraus的LLA里面, 先是列出了其作为keyword的所有section (如果是keyword的话), 如burn的前10个, 然后接上其作为单词出现过的section.
所以这12000个单词大部分是作为单词在section里面出现过的集合.
举个例子, 在LDOCE6里面burn有13个section, 其第一个section是这样的:
incinerate只有一个section, 如下:
singe也只有一个LLA section, 如下:
所以Ldoce6里面有大量重复的section, 但是在LLA书本里面这个section只有一份, 是在burn这个keyword下面.
如有错误请大家指正.