johannhuang 已经做了一版。
我的思考:
- headword 里的括号、to 、lit/fig 待处理
- 汉语单字不应被反查到
- headword 单词数不应超过某值
- 汉语解释排序应与 headword 在原解释列表位置及列表长度相关
- 待补充
johannhuang 已经做了一版。
我的思考:
jh好像很久不发帖了。。。
完工啦。
这是一本(简繁)汉英词典,也是一本英汉(简体)词典,还是一本强大的汉语同义词词典。
用法示例:查“小姐”这个词,点击英文释义“(slang) prostitute",去看同义词。
单独处理了汉语单字;汉语词性只简单地分为动词与非动词。具体内容请看代码。
膜拜楼主,感谢制作分享~
很强大 ,特意来感谢的
extract7.py (3.2 KB)
把代码整理了一遍,用到了这个:
from collections import defaultdict
decs = defaultdict(lambda: defaultdict(set))
更新。简单、符合直觉地处理了拼音部分。依据:
词头旁边的拼音直接调用函数转换,正文内的拼音用正则匹配之后再转换:
dc = re.sub(r"(?<=\[)([A-Za-z][^][]+)(?=\])", lambda m: pinyinify(m.group(1)), dc)
extract9.py (4.5 KB)
CC-ECCEDICT 2021.7z (10.3 MB)