求助:词条拆分

此处是牛津高阶10的idioms词条,希望论坛里的高手可以帮忙拆分一下词条,以加强检索方便性。
比如,词条pitch a story/line/yarn (to somebody),希望在拆分之后通过以下方式皆可检索到:
pitch a story
pitch a line
picth a yarn
pitch a story to somebody
pitch a line to somebody
picth a yarn to somebody
pitch a story to sb
pitch a line to sb
picth a yarn to sb
extraction.zip (89.2 KB)

有点难度。。

重复解答排列组合题 :grinning:,碰上标点符号简直要疯,哈哈。macmillan半手工500个后就放弃了……
只好用大佬的话(找主词条也是种能力)来安慰自己。

简单拆分可以借鉴:
词组拆解(拆分词组、提取词组) 脚本
https://www.pdawiki.com/forum/thread-37217-1-1.html
(出处: 掌上百科 - PDAWIKI)

2 个赞

这个脚本我看过,有bug,类似the turn of the century/year这样的出现重复单词的不能用,算法设计有问题

没有完美的自动或者半自动方式, 可以先用正则初略的拆, 但后面需要大量的手工校正, 需要耗费非常大的精力和时间

1 个赞

我也遇到问题,怎么拆分?Pdawiki板块被关闭了

pitch a story/line/yarn (to somebody)

说下我的想法,先用正则匹配story/line/yarn,再以/拆分成三个单词,用这三个单词替换story/line/yarn,结果为pitch a story (to somebody)等等,再以(拆分括号内外,得到括号前面的短语pitch a story等,body后面的)删掉,to somebody和前面的短语再组合起来。somebody和sb直接替换就成,分多次处理后,应该可以解决80%-90%左右的问题。如果不想人工校对,可以找个词典网站去撞。