柯林斯cobuild高阶双解词典第八版+反查

原话奉还!

查电子词典不同于翻书。试问:单词、短语、派生词等各种变形,不提取出来又能怎样?

统计口径不同罢了。

一个电子词典的词条统计了单词、短语、固定搭配以及单词变形也无可厚非!

好比,有几个人是不认识take而去查电子词典的,他可能真正搞不清楚的是take on, take up, take in, take out, take off, … …
还有,一个以o结尾的名词,复数到底是加s还是es,输入电子词典直接查到了,这难道不好吗?

即使抽取了所有单词的变形,使用时加以说明,那么这么做也很有意义了:词典的查得率提高了!否则,直接翻书好了。

最后想说,楼主制作这本词典的意义不是

,而是意义在于这

1 个赞

我想是各家的统计方式不一样。本来32000多词条,再加衍生,那就可能36000。比如物书堂的文本 approximately 是放在 approximate 词条里的,有人拆分开来计算当然也是合理。

我很反对那种毫无意义的一味扩充词条,不管对错,只要量多的做法。举个例子吧,用好评如潮的牛津高阶双解V10,它的词头很多,将近30万(是因为词头越多,卖的价钱就越高吗?)abash,形容词abashed,名词abashment。但牛津V10里却有abashedness,甚至还来了个复数形式abashednesses。可谓误人子弟。

但这个柯林斯第八版的所有变形,是原始词典中就有的,我不过是把它提取出来。我目前还在用Mac的词典格式调试,好处之一就是鼠标取词的时候,不管单词什么形态,都可以查到,体验相当好。

我对MDX其实不是很熟,只会用mdcit命令傻瓜式的打包纯文本,高级用法完全不会。MDX的格式要尽量避免用LINK?

4 个赞

对于电子词典来说这些词的变形、短语、例句都属于索引一类,它们指向同一词条。至于某dict没办法区分索引和词条,只能用大量LINK来做,属于残废格式。物書堂的统计还算比较实事求是的,比如这本书的介绍提到了“110,000余条词汇、短语”,而物書堂的介绍是33,000

如果按照某楼上的说法,那么某dx格式起码得10万词条起才算合格吧不对,应该再加上“200,000条释义、110,000余条例证”共计40万

2 个赞

虽然我也大概知道你想说的是什么,但你这么问好像别人都有误解就你明白似的!
对 “词条”数 的理解除了京东对柯林斯词典的介绍中的“彩色条目”
京东柯林斯词典介绍

或牛津9中的定义

难不成你还有其他的理解?

制作电子词典时把headwords下的短语及变形提取出来连同其释义单列成新的entry,最终统计的数就是词库的词条数(量)。这么理解有什么问题吗?

如果词典的raw是一样的(相同的),不同的人制作成的词库词条数量不同,在不考虑其他制作技术的情况下,你说大家会选择哪一个?

如果分别查相同的单词、短语,你说是不是词库词条数量多的查得率更高一些?

至于你说的

我觉得你说的跟词条数也没什么关系!

最后,如果你觉得比别人懂得更多一些,那请先解答了楼主 #68楼最后提的那个问题再说吧。

1 个赞

等,等等~等等!

楼主发的没有反查内容的版本(这个版本没有反查内容,方便大家mdx斟误修改):
柯林斯COBUILD高阶双解词典v8.part1.rar (2 MB),
柯林斯COBUILD高阶双解词典v8.part2.rar (2 MB),
柯林斯COBUILD高阶双解词典v8.part3.rar (2 MB),
柯林斯COBUILD高阶双解词典v8.part4.rar (2 MB),
柯林斯COBUILD高阶双解词典v8.part5.rar (2 MB),
柯林斯COBUILD高阶双解词典v8.part6.rar (1.0 MB)


你发这个图片是啥意思呢?看不懂…

3 个赞

等,等等~等等!

2 个赞

不啊,只是太多人对基础定义不了解,稍微解释一下而已。其他疑问我都没回了啊

赠送一个问题

怎么来的,通过解析物書堂的headword数据得出词头、短语、例句共121,557条,其中词头32,772,就是上面的文件
然后索引数据目前没办法全部解析,只能看到headword索引65,916条,跟楼主给出的数据(去重约 65,935)算是比较接近了

3 个赞

其实没必要把词的变形单拆出来,GoldenDict 自带这个功能

我觉得楼主的工作很有价值,很感谢楼主,希望能帮助减轻一些楼主的工作量

1 个赞

哦,词典有网友已经在上面贴出了链接,我就不重复占用空间了。我没有要否定楼主劳动的意思,我只是看网友们好像对此版本趋之若鹜,但观察内容(没有仔细比较)似乎没有精进我才有此一问。楼主别介意。

3 个赞

哦,明白了。第八版数据应该是在ff那一版的原始数据的基础上翻译做过改进。不过这些零打碎敲的点滴改动很难引发关注,单独做一版只怕难与ff那个经典版本媲美(大多数人要看柯林斯的话估计都会先ff那版,或者是zilas的英文版)。所以okayer不妨把这个数据并入他的SIO,这样功效就大的多了。

1 个赞

如果不是拿着两个版本比照着看的话,几乎不会留意到这点变动。更何况有多少人会仔仔细细读词典中的每一个例句以及它们的译文?

有些网友真是……楼主做自己想做的,觉得有用的网友自己关注,你觉得这个没用,就不用点进来,你觉得做什么好,你就自己去做,为什么要说楼主做的没用?如果你是想请求楼主按你想要的方式去做,那请求别人也不该用这种语气吧
楼主真要被你们气跑了……

2 个赞

哈哈,又要被气跑两天了 :joy:

FF大神那一版做的确实非常好,包括上面分享的英文版,看着也很舒服。
只是banchao大神辛苦提取了原始文本,就算是给大家多一个选择吧,不管怎么说,目前为止没有真正的柯林斯双解第八版出来。

6 个赞

对此表示严重同意!

4 个赞

加油楼主,我们大家支持您,不要被不好的留言所干扰

你平心静气的客观来看我的回复,不要觉得我是在挖苦你。网络发言隔山隔水的,可能语气做不到周全,但是我真不是那个意思。先前一问是我对这个版本不了解,不知道好在哪里。之后一说,是觉得可能整合进你的SIO好处更多。正因为不想产生误会,所以也没有直接回复你。

算了,不说了。再说就越描越黑了。当我没说吧。 :slightly_smiling_face:

2 个赞

好啦,没关系,大家安心等完整版吧。

纯文本转成词典不太容易,遇到的问题很多,一定不如直接抓取在线版那么完美,不过在一些小地方也会有超越任何版本的惊艳之处。

6 个赞