英汉大词典 第3版 糖果版(制作中)

感谢 @winn 对原数据的处理!

《英汉大词典 第3版》糖果版正在制作中,敬请期待~


改进了数据提取代码,可以把词性提取出来了
convert.py (4.5 KB)

但仍有以下问题:
1.异常行终止符与空行
1.1.行终止符
1.2.空行问题
1.3.关键字污染
2.HTML 结构问题(冗余与不一致)
2.1.代码冗余
2.2.结构缺失(美化不一致)
3.词性(POS)缺失与逻辑错误
3.1.主条目词性缺失
3.2.头词(Headword)映射错误

通过与第二版对比,发现一些问题,并编写脚本以处理这些问题:
1.去除对多媒体资源的支持
2.去除冗余
3.去除过深嵌套层级
4.去除对外部资源依赖
5.去除对外部特定名称css的依赖(解耦)
6.规范化词头,去除词头中的音节分割符(如 Pa·ri·cu·tin)
7.删除空行
8.删除异常行终止符
9.尝试改进独立的屈折变化重定向、派生词的独立词头、简易交叉引用链接
——————————
将txt拆分为小份以供检查
2.split_txt_file.py (1.4 KB)
用于处理上述问题
3.refine_dictionary_data.py (4.3 KB)

事实证明没那个金刚钻 :nerd_face:

继续努力,不放弃。。。。

在做了在做了 :nerd_face:

辛苦哈,感谢呀!

感谢Sherman,感恩先生的辛勤劳动!!!
翘首期盼中……

别呀,大神,我们等着你。