感谢 @winn 对原数据的处理!
《英汉大词典 第3版》糖果版正在制作中,敬请期待~
改进了数据提取代码,可以把词性提取出来了
convert.py (4.5 KB)
但仍有以下问题:
1.异常行终止符与空行
1.1.行终止符
1.2.空行问题
1.3.关键字污染
2.HTML 结构问题(冗余与不一致)
2.1.代码冗余
2.2.结构缺失(美化不一致)
3.词性(POS)缺失与逻辑错误
3.1.主条目词性缺失
3.2.头词(Headword)映射错误
通过与第二版对比,发现一些问题,并编写脚本以处理这些问题:
1.去除对多媒体资源的支持
2.去除冗余
3.去除过深嵌套层级
4.去除对外部资源依赖
5.去除对外部特定名称css的依赖(解耦)
6.规范化词头,去除词头中的音节分割符(如 Pa·ri·cu·tin)
7.删除空行
8.删除异常行终止符
9.尝试改进独立的屈折变化重定向、派生词的独立词头、简易交叉引用链接
——————————
将txt拆分为小份以供检查
2.split_txt_file.py (1.4 KB)
用于处理上述问题
3.refine_dictionary_data.py (4.3 KB)
事实证明没那个金刚钻 ![]()
继续努力,不放弃。。。。
在做了在做了 ![]()
辛苦哈,感谢呀!
感谢Sherman,感恩先生的辛勤劳动!!!
翘首期盼中……
别呀,大神,我们等着你。