MDX 词组提取拆分

代码:

extract.py (2.0 KB)

节选:


def split_the_phrase(ph):
    list_ph = list()
    if " = " in ph:
        return list_ph
    for elem1 in ph.split(", "):
        list_tmp1 = [elem2.split("/") for elem2 in re.split(r"([()… ]+)", elem1)]
        list_tmp2 = list(itertools.product(*list_tmp1))
        list_ph += list_tmp2
    return list_ph

8 个赞

非常感谢!汇报一下:encoding设置为utf-8为好,不然会出现gbk解码报错。改了两处之后就正常运行了。
附上小改后的代码:
extract.py (2.1 KB)
经验:合并txt不需要复制,可以用命令行完成:命令行合并txt文件_有来有去-CV的博客-CSDN博客_合并文本命令
copy *.txt c:\merged.txt

制作成功:

[extract.py|attachment]

2 个赞

我这儿默认utf-8。合并,linux下我最喜欢用:

cat dict_* > dict.txt
1 个赞

支持授人以渔。

太厉害了(虽然没看懂,但觉得很牛),先收藏,慢慢学习。 :grinning: