词典控最好知道的若干术语,以及如何判断词典的「收词量」

大家知道后,也可以用这些术语更准确地表达或交流。我直接搬它们的 OALD10 的定义过来:

  • Headword: a word that forms a heading in a dictionary, under which its meaning is explained.
  • Entry/body: 既然字典有 headword,那通过查找 headword 而列出的正文内容就叫 entry 或 body 了。我猜的,不一定对。
  • Record: 那 headword 和 entry/body 加在一起时又怎么称呼呢?我猜是 record,不一定对。中译为「条目」比较好?
  • Lemma: the basic form of a word, for example the singular form of a noun or the infinitive form of a verb, as it is shown at the beginning of a dictionary entry。就经常优先作为 headwords 而出现。
  • Inflection: a change in the form of a word (typically the ending) to express a grammatical function or attribute such as tense, mood, person, number, case, and gender. 举例,inflection 可以算 lemma,但 inflections 就只能是它的 inflection。
  • Derivation: the formation of a word from another word or from a root in the same or another language. 举例,derivation 不是 derive 的 inflection,但算是后者的 derivation。
  • Phrase: an idiomatic or short pithy expression。look up, take care of, get rid of 等都是 phrase.
  • Idiom: a group of words established by usage as having a meaning not deducible from those of the individual words。the straw that breaks the camel’s back 是来自英语的成语,没想到吧!
  • Word family: 这个术语貌似没有学术公认的定义。Word Family Framework 定义为:Most headwords provide the starting point for a word family, which includes the cognates, derivatives and compounds which make up the family. Prof Paul Nation 也有分享他总结的 word family,貌似是 COCA 的

我差不多花了一年才总结出这些术语,事实上就连 native-speakers 都不一定知道 lemma, inflection, derivation 这些术语。我很久以前就想知道怎么区分或称呼这些概念,毕竟查阅或制作词典时这些很关键。但在 Reddit 上问了两遍也没结果。最后 pdawiki 某前辈才给我指出了 lemma 这个核心概念。

于是一个理想的常规词典应该以 lemmas 作为主要 headwords,支持搜某 inflection 时能直接定向到其 lemma 所对应的 record。据我所知,Kindle 字典这方面的表现就贱差。此外 ESL 学生也许还需要像 word family framework 这个特殊词典,即能直接把某 lemma 的整个 word family 列出来,且也有重要等级划分,一目了然。还有好的学习型词典应该包含 phrase 和 idiom 并高亮常见的,OALD 就如此。

此外词典的收词量也算重要质量指标之一,那如何查看具体数量呢?其实很简单,我也是刚刚发现的,就是在 GoldenDict 的 Edit—Dictionaries…—Dictionaries(或者主界面右上方的 Found in Dicitionaries)里,右键某词典,查看 Dictionary Info 或 Dictionary Headwords,里面会列出 headwords 的数量。我自己看了下我的词典,OALD10 有三十万;OED 有二十七万,比 OALD10 还少,估计因为 OALD10 有不少 phrases 条目;The Little Dict 有四百万,太多了!当然,它们应该都支持查 inflections 并定位到对应 lemma 条目,要不然 headwords 也不会那么多了。

15 Likes

我知道lemma数学上是引理的意思,没想到在词典中还有这种意思。
查了下21世纪词典:
3. (注释或评语的)标题,题头;(词典中的)词目,条目

OALD9
仍以OALD为例,Headword词目,我认为翻成“词头”更好,Entry词条=词头+释义,因此,一般词条数就等于词头数。对词典而言,电子词典尤是,词条数的大小直接决定了查得率的高低。所以,词条数便成了衡量一本词典好坏的重要指标之一。前人统计过,目前市面上的高阶学习型词典収词量(词条数)大致8~10万,小于6万的収词量较小,多于10万的难免滥竽充数(不展开讨论)。
电子词典的制作者如果抓取精确、深入,词条数可以翻倍(单词、短语、习语都单独成为了词头)。
一个不好的风气是,出于销售宣传的目的,某些个词典肆意夸大宣传収词量,见过号称几十万、上百万的,估计是连单复数Lemma、动词不规则变化Inflection,主词条里的派生词Derivation等统统都算上了。
Word family词族,一般是指具有相同词根(词干)的词,通过构词法得到的一组词。罗列在一起便于理解和记忆,短时间内可以迅速扩大词汇量。词典如果给出了Word family就省得我们自己去总结了,或便于我们在此基础上进一步mindmap和brainstorm。

5 Likes

确实也有一些民间制成的词典自称有很夸张的收词量,其实包含了 lemma, inflection 和 derivation,拿它和收词量只包含 lemma 的词典比较是不公平的。

3 Likes

没那么多,主流高阶英汉双解词典收词都不超过5万,英英版撑死也就到6万,超过此数的基本上都是算上了变形或者短语动词之类的。几乎所有词典宣称的收词数都是夸大宣传

牛津双解9:46,671
牛津双解8:41,971
朗文双解6:约43,000
朗文双解5:42,232
柯林斯双解8:32,772
剑桥双解:约36,500
麦克米伦双解:约44,200
韦氏双解:约39,200

8 Likes

没错,牛津系列现在都说“共包含 XXX 条单词、短语和义项”。连义项都算在一起了。

我以为, 词典术语及规范, 以ECD2(英汉大词典 第二版)体列所载加以对照(OED?)就可以了. :heart_eyes:

电子词典, 技术进步, 无原则且无限扩张词目(Headword), 事实上很多时候不见得科学. 一个实际问题就是这么做可能(?)会严重影响词典全文检索的效率和实际使用体验, 这方面的典型实证是(早期?)MDX/BGL转DSL然后进入GD/Lingvo全文检索. 当然, 很多电子词典的制作(编纂?)都是非专业(职业?)行为, 这方面有些问题, 原本也可无碍 :innocent:

1 Like