CC-CEDICT 英汉反查的实现

johannhuang 已经做了一版。

我的思考:

  • headword 里的括号、to 、lit/fig 待处理
  • 汉语单字不应被反查到
  • headword 单词数不应超过某值
  • 汉语解释排序应与 headword 在原解释列表位置及列表长度相关
  • 待补充
2 Likes

jh好像很久不发帖了。。。

完工啦。

这是一本(简繁)汉英词典,也是一本英汉(简体)词典,还是一本强大的汉语同义词词典。

用法示例:查“小姐”这个词,点击英文释义“(slang) prostitute",去看同义词。

单独处理了汉语单字;汉语词性只简单地分为动词与非动词。具体内容请看代码。

5 Likes

膜拜楼主,感谢制作分享~

很强大 :smile:,特意来感谢的

extract7.py (3.2 KB)

把代码整理了一遍,用到了这个:


from collections import defaultdict
decs = defaultdict(lambda: defaultdict(set))

1 Like

更新。简单、符合直觉地处理了拼音部分。依据:

  • 音调标在最前面的a、o或e
  • 如果没有a、o或e,则标在最后面的i、u或ü
  • 标音调的字母在一个拼音内只出现一次

词头旁边的拼音直接调用函数转换,正文内的拼音用正则匹配之后再转换:


dc = re.sub(r"(?<=\[)([A-Za-z][^][]+)(?=\])", lambda m: pinyinify(m.group(1)), dc)

extract9.py (4.5 KB)

CC-ECCEDICT 2021.7z (10.3 MB)

1 Like