多谢理解!已经要晕了。因为21#的提醒,发现了一些问题:
以为改了就ok了,谁知编译后发现还是少了一条,少哪条呢?哪个地方出问题先不管了,先找出来再说。那把词头提取出来与官网词表比对一下不就知道了,谁知一比对,吓了一跳,对不齐的有几百条。
浏览一下,原因大概有两个:
一、官方词表把idiom和phrase直接加在了词条后面,所以连同一楼的比对和替换表都得更新;
二、还是用bs4提取词头的问题。因为英英版包含了几部词典,所以标签结构比较复杂,一般正则不易提取,只得用bs4,也许是分析存在问题,更可能是网页标签存在问题,所以某些词头提取出现问题。
上面说的都是英英,英汉应该没啥问题,如果没人做,我有空可能会处理链接、删除冗余、增加js。英英不打算弄了,包括数据,至少暂时不再弄了,先把目前已知的问题上传,希望有高人接盘。