OED词头合并重新排序,征集意见

首先感谢@137229大佬分享的OED(20200828) 版!

这里以单词 bob 为例,在OED 中,bob 的解释有18条,已知如下词头:

  • bob, adv., freq=2
  • bob, adj., freq=2
  • bob, n.1, freq=4
  • bob, n.4, freq=2
  • bob, n.2, freq=0
  • bob, n.8, freq=2
  • bob, v.3, freq=5
  • bob, v.1, freq=0
  • bob, v.4, freq=4

现在需要把上述词头合并,不知道这些词头应该如何排序? (freq 是使用频率, n.1中的1是序号)

  • 先按 freq 排序,相同 freq 的按词性adj, adv, n, v这样字母排序,如果词性相同按序号排,优点是高频词在前面,缺点是看上去乱序。

    • bob, v.3, freq=5
    • bob, n.1, freq=4
    • bob, v.4, freq=4
    • bob, adv., freq=2
    • bob, adj., freq=2
    • bob, n.4, freq=2
    • bob, n.8, freq=2
    • bob, n.2, freq=0
    • bob, v.1, freq=0
  • 先按词性排序, 相同词性按序号排,优点是排序好看,缺点是会有大量obsolete的解释在前面,不知道大家是否介意?

    • bob, adv., freq=2
    • bob, adj., freq=2
    • bob, n.1, freq=4
    • bob, n.2, freq=0
    • bob, n.4, freq=2
    • bob, n.8, freq=2
    • bob, v.1, freq=0
    • bob, v.3, freq=5
    • bob, v.4, freq=4

我倾向于按词性排序,不过我看了一下我正在使用的旧版,bob这个单词,有n.1—10,v.1—7,中间并没有缺失。

1 个赞

只是举例,没有全摘出来。

可以参考旧版,按词性排序,然后是序号从小到大。不过n.7是专有名词,旧版单独放到最后面了。

这样排,很多单词第一条都是 Obsolete的,不知道大家是否介意?

OED最开始叫A New English Dictionary on Historical Principles,最早的释义就是排在前面,估计很难改变。就算把序号打乱一下,里面的义项还是这样的。

3 个赞

HeliosXin的是如何排序的?没有他这版,方便发个资源?

我的版本是2nd Edition, version 4; Last updated for MDict by whitegerry 2014.10.9

1 个赞

我相信freq应该是指当前或至少是最近的使用频率。
从词典使用效率角度出发建议如下(如可行的话):
1.以词性排序,含有最高freq排前面。相当于章节排序。
2.词性(章节)内以义项freq排名,原义项序号不变(序号是义项出现的顺序排列?)

这样即可以快速确定其最常用词性及词性内最常用义项,也可知晓各义项出现的历史脉络。
当然最好内在词典简介中说明义项序号和时间历史的关系,若真是如此的话

1 个赞

对,这是oed的编纂原则和特色,建议不要重新排序。

Oxford Dictionary of English的各个义项才是按照词频排序的。如果是为了使用方便,还是直接去查Oxford Dictionary of English而不是这本

先原汁原味搞出一版,后面改版再慢慢来

2 个赞

官网按词性排,但词性顺序不是字母序,可能有固定顺序。相同词性,按引言第一条的添加时间排序,应该就是词性后面的序号。

你截图这本排序是 n. → a. → v. → adj.

不知道是不是这几个词性有固定顺序?正常字母序的话是a. → adj. → n. → v.,能否总结下几个常见词性的固定顺序?

HeliosXin版是照词性排的

1 个赞

又查了几个,abandon是adv.→v.→n.
down是n.→a.→adv.→prep.→v.→专有名词
再加上bob是n.→a.→v.→adv.→专有名词

1 个赞

看样子是乱序,没有固定顺序。

按词性排,词性本身的顺序,按最高频率的排。v(5) → n(4) → adj.(2) → adv.(2),这样是否合适?

  • bob, v.1, freq=0
  • bob, v.3, freq=5
  • bob, v.4, freq=4
  • bob, n.1, freq=4
  • bob, n.2, freq=0
  • bob, n.4, freq=2
  • bob, n.8, freq=2
  • bob, adj., freq=2
  • bob, adv., freq=2

建议按原始网页顺序排。OED无论词义还是例证都是按历史先后排的。这是学术性的体现,走的不是ESL的那套。

1 个赞

现在就是原始网页没有顺序。官网上BOB 这个词条由18个网页组成,并不是合并在一起的。官网有个搜索结果的排序,说按词性排然后相同词性按添加时间排,但搞不清词性本身的排序方式。

1 个赞

你是二手数据?那估计很难还原了。

是啊,就怕还原的不好。