新世纪英汉大词典Phr V & Idioms

process · 2020 年5 月 26 日 19:18

能否分享一下提取脚本

Arlin · 2020 年5 月 27 日 00:29

tg群里有参考。另，我怎么记得你会提取词组，Cambridge和COD？

process · 2020 年5 月 27 日 00:40

因为目前还不太完善，比如楼上说的at least。我是想要针对这一本的具体逻辑，因为标签太乱，要提取的部分分散在好几处，所以想参考一下你的。

Arlin · 2020 年5 月 27 日 01:05

难得是划分吧。之前是在python提取后再在emeditor里反复改的。逻辑就是将词头与其下的相关siblings放入统一标签。
phrase_sense确实有些麻烦，想不到好办法，实在不行就取sibling吧，虽然这样会带入无关的内容。
等你完善噢。我们不急～

Arlin · 2020 年5 月 27 日 10:59

算了，还是我来吧，把in any shape or form | believe it or not | to do or die这种不该拆分的修正一遍，再把一些缺标签的（secure in the knowledge that …）提取一遍。

Arlin · 2020 年5 月 30 日 06:43

更新了啊～
原来的有问题，不要用了。
详情见帖子说明。

process · 2020 年5 月 30 日 17:55

请问修正后的正文（未提取版）可以提供一下吗？

Yyang · 2020 年5 月 31 日 05:21

不错不错不错这个版本存在问题还有p字段缺词，几十个吧。
这个数据我弄的，初期纯文本，修来修去了三个月…当时加标签的时候比较佛系造成后期修改起来比较麻烦，但是整体数据还是有规律的我记得，楼主加油～

mdictfan · 2020 年5 月 31 日 07:36

本尊来了主站的评论还在争议数据是否来自pleco

process · 2020 年5 月 31 日 07:58

能否给个初期纯文本?

Arlin · 2020 年5 月 31 日 08:43

没有精力再弄一个“韦氏”，等待有颜有闲的人儿出手～

Arlin · 2020 年5 月 31 日 08:48

原来是你，Yyang。
不管了，非主力，能用就行。

process · 2020 年5 月 31 日 09:14

哪个韦氏，具体名字是哪个

Arlin · 2020 年5 月 31 日 10:44

韦氏高阶英汉双解…

process · 2020 年5 月 31 日 17:04

我觉得你的3.1.3已经很好了

Arlin · 2020 年6 月 1 日 00:32

那是韦传O朗兄改的。
他那版本很好，
我已经弃用自个儿的了。

rootcao · 2025 年4 月 11 日 07:53

请问新世纪汉英增补.zip对应的是【20201017更新】新世纪汉英大词典这个吗？