CC-CEDICT 英汉反查的实现

lurker · 2021 年2 月 24 日 03:26

johannhuang 已经做了一版。

我的思考：

炊爱牛 · 2021 年2 月 24 日 05:05

jh好像很久不发帖了。。。

碧落黄泉 · 2021 年2 月 25 日 12:57

膜拜楼主，感谢制作分享~

炊爱牛 · 2021 年2 月 25 日 17:47

很强大，特意来感谢的

lurker · 2021 年2 月 26 日 19:08

把代码整理了一遍，用到了这个：


from collections import defaultdict
decs = defaultdict(lambda: defaultdict(set))

lurker · 2021 年2 月 27 日 09:35

更新。简单、符合直觉地处理了拼音部分。依据：

词头旁边的拼音直接调用函数转换，正文内的拼音用正则匹配之后再转换：


dc = re.sub(r"(?<=\[)([^]]+[1-5])", lambda m: pinyinify(m.group(1)), dc)

Beau · 2021 年3 月 7 日 11:28

楼主你好，谢谢你的分享。
我想问一下在 extract9.py 代码里读取的 hanzi.txt 和 wordlist.txt 两个文件怎么来的呀。
我是看了之前CEDICT 2021的帖子，就只有一个 cedict_ts.u8 文件。
感谢。

lurker · 2021 年3 月 7 日 11:59

wordlist.txt 是 Wiktionary EN 词表（一行一词），提取自：

hanzi.txt 是通用规范汉字表（仅第一级），提取自：

Beau · 2021 年3 月 7 日 12:08

懂了，感谢

hahaya · 2021 年4 月 5 日 05:16

感谢更新！ ::::