求助:词条拆分

此处是牛津高阶10的idioms词条,希望论坛里的高手可以帮忙拆分一下词条,以加强检索方便性。
比如,词条pitch a story/line/yarn (to somebody),希望在拆分之后通过以下方式皆可检索到:
pitch a story
pitch a line
picth a yarn
pitch a story to somebody
pitch a line to somebody
picth a yarn to somebody
pitch a story to sb
pitch a line to sb
picth a yarn to sb
extraction.zip (89.2 KB)

有点难度。。

重复解答排列组合题 :grinning:,碰上标点符号简直要疯,哈哈。macmillan半手工500个后就放弃了……
只好用大佬的话(找主词条也是种能力)来安慰自己。

简单拆分可以借鉴:
词组拆解(拆分词组、提取词组) 脚本
https://www.pdawiki.com/forum/thread-37217-1-1.html
(出处: 掌上百科 - PDAWIKI)

1 Like

这个脚本我看过,有bug,类似the turn of the century/year这样的出现重复单词的不能用,算法设计有问题

没有完美的自动或者半自动方式, 可以先用正则初略的拆, 但后面需要大量的手工校正, 需要耗费非常大的精力和时间

1 Like