新世纪英汉大词典Phr V & Idioms

能否分享一下提取脚本

tg群里有参考。另,我怎么记得你会提取词组,Cambridge和COD?

因为目前还不太完善,比如楼上说的at least。我是想要针对这一本的具体逻辑,因为标签太乱,要提取的部分分散在好几处,所以想参考一下你的。

难得是划分吧。之前是在python提取后再在emeditor里反复改的。逻辑就是将词头与其下的相关siblings放入统一标签。
phrase_sense确实有些麻烦,想不到好办法,实在不行就取sibling吧,虽然这样会带入无关的内容。
等你完善噢。我们不急~

算了,还是我来吧,把in any shape or form | believe it or not | to do or die这种不该拆分的修正一遍,再把一些缺标签的(secure in the knowledge that …)提取一遍。

1 Like

更新了啊~
原来的有问题,不要用了。
详情见帖子说明。

请问修正后的正文(未提取版)可以提供一下吗?

不错不错不错 这个版本存在问题还有p字段缺词,几十个吧。
这个数据我弄的,初期纯文本,修来修去了三个月…当时加标签的时候比较佛系造成后期修改起来比较麻烦,但是整体数据还是有规律的我记得,楼主加油~

2 Likes

本尊来了 :grin:主站的评论还在争议数据是否来自pleco :smile:

1 Like

能否给个初期纯文本? :heart_eyes:

没有精力再弄一个“韦氏”,等待有颜有闲的人儿出手~

原来是你,Yyang。
不管了,非主力,能用就行。

哪个韦氏,具体名字是哪个

韦氏高阶英汉双解…

我觉得你的3.1.3已经很好了

那是韦传O朗兄改的。
他那版本很好,
我已经弃用自个儿的了。