20240311 牛津短语动词词典(英汉双解第二版) 从数据库提取 变体之类

感谢楼主回复。您看看是否有助于排查

辞书app里面截图



欧陆里面我测试分组只放oald10和美语这两本,输入books,美语是不显示内容的,但oald10可以显示;
而如果词典分组只放美语,books可以跳转至book(估计是就近匹配?)


我觉得扩充词头没有多大用,多了一堆无意义的链接词头,还不容易发现真正的漏词。词典本身多少词头(entries)就多少是最好的,这也是草兄作品忠于原书原始app的体现。

确实,添加更多词头也只能算是锦上添花,取决于制作大神的想法和原始数据。
如果只是手动输入单词查询,多出的词头没多大意义,变化形式还容易跟一些原型混一起(比如shooting既可以作为名词单列一条,又可以是shoot的动词变化,不同字典查询处理的逻辑各异)
但如果用于跨app查询(比如koreader用欧陆点击查词),这种看似冗余的词头查询起来就便捷很多了。
以上个人拙见

跨app查询本身就可以人工干预,更方便,先默认查,没有再简单编辑词尾。用这种冗余词头链接更不靠谱。比如你要查的是understand,结果词典有understanding,那你还是要手动编辑回到understand,所以简单编辑一下很方便。不扩大冗余词头也方便导出学习。我觉得这种干净的数据不应该乱污染。草兄这个数据比较完整干净,官方多少词头(entries)mdx就多少是最好的。个人拙见。

1 个赞

英语还好,像西语法语这种动词变位多的语言,让作者自行添加词头跳转不怎么现实。解决办法还是软件这边增加对构词库(morphology)的支持。

1 个赞

谢谢草兄!
这个提取棒极了!
还有能不能考虑提前诸如TV—television(有些词典也称缩略字)、Mr、Mrs等这样的词条?

问题反馈
在牛津短语和牛津美式英语这2部词典上,输入代词,我、你、他、她、它都存在问题(难以打开等等)。麻烦草兄大神核对!

确实如此。
GD就自带 morphology 支持

感谢草兄!测试了一些单词,个人有些建议您看从整理数据的角度上是否合适。

参考词典源数据的原有词头补充抓取和调整(猜测应该可能有对应标签/跳转数据?),一来批量转换更有效率,二来避免漏抓:

以下例子在app中均有词头(后附图):

  • irregular form of(tried跳转至try,driest跳转至dry,traveled跳转至travel,taken跳转至take)
  • variant of (USA/U.S.A.均跳转至U.S.)
  • alternative forms of (lots跳转至lot, sales跳转至sale,books跳转至book)
  • plural of (dummies跳转至dummy,tries跳转至try)
  • derivative of (dryness跳转至dry,absently跳转至absent)

不知道源数据是否还有其他类似标签,我手上没有源数据无法穷尽,只能在app里面挑了一些我想到的词头来测试。

对于源数据无词头,但在其他词头下有内容,个人建议无需单独提取词条内容,只要查询该单词时跳转至原有词头即可,举例:book义项5的books,sale义项4/5的sales,建议改成查询books跳转至book,查询sales跳转至sale)

再次感谢草兄无私奉献!












2 个赞

MDX 源数据里的 infl 标签是空的,但实际数据是存在的,官方APP的数据库里有这个数据,用于词头跳转,并且同一个词头不同词性的变形都做了区分,港版APP的数据库不了解。

各位 再次 提取了一下 各位测试一下
附 数据 可以研究下 对不对
oad__hw_index.rar (466.0 KB)
oad__listitems.rar (118.3 KB)


5 个赞

谢谢草兄!
测试结果令人满意!#30提出的TV可以直接查到…Mr, Mrs也可以查到,但是首字母大写词典就跑到后面去了(还错以为没有该词条)。
#31的我、你、他、她单查,词典打开还是略显慢了点。

这个牛津10是什么版本,好喜欢这个Css 次重点突出又不累眼,您能否分享下css文件

请问您这个短语词典是源自哪一版的?

这两个词典中的美语词典有没有好一点的CSS文件?多谢

1 个赞

感谢大佬分享 这个 牛津短语动词词典 太好用了!

感谢草兄,目前这个版本测试下来,很完美!

我截图的不是mdx,是英汉辞书app里面的内容

Is the oxford American dictionary taken from advanced learners or ODE? I can’t find the source of it!

输入usa查询,其中会出现U.和urasium结果,会感觉有点奇怪。不知道算不算bug