能否分享一下提取脚本
因为目前还不太完善,比如楼上说的at least。我是想要针对这一本的具体逻辑,因为标签太乱,要提取的部分分散在好几处,所以想参考一下你的。
难得是划分吧。之前是在python提取后再在emeditor里反复改的。逻辑就是将词头与其下的相关siblings放入统一标签。
phrase_sense确实有些麻烦,想不到好办法,实在不行就取sibling吧,虽然这样会带入无关的内容。
等你完善噢。我们不急~
算了,还是我来吧,把in any shape or form | believe it or not | to do or die这种不该拆分的修正一遍,再把一些缺标签的(secure in the knowledge that …)提取一遍。
3 Likes
更新了啊~
原来的有问题,不要用了。
详情见帖子说明。
请问修正后的正文(未提取版)可以提供一下吗?
不错不错不错 这个版本存在问题还有p字段缺词,几十个吧。
这个数据我弄的,初期纯文本,修来修去了三个月…当时加标签的时候比较佛系造成后期修改起来比较麻烦,但是整体数据还是有规律的我记得,楼主加油~
2 Likes
本尊来了 主站的评论还在争议数据是否来自pleco
1 Like
能否给个初期纯文本?
没有精力再弄一个“韦氏”,等待有颜有闲的人儿出手~
原来是你,Yyang。
不管了,非主力,能用就行。
哪个韦氏,具体名字是哪个
韦氏高阶英汉双解…
我觉得你的3.1.3已经很好了
那是韦传O朗兄改的。
他那版本很好,
我已经弃用自个儿的了。