剑桥英语词典2023在线数据（1月22日更新）

sxingbai · 2023 年1 月 20 日 13:26

多谢理解！已经要晕了。因为21#的提醒，发现了一些问题：

以为改了就ok了，谁知编译后发现还是少了一条，少哪条呢？哪个地方出问题先不管了，先找出来再说。那把词头提取出来与官网词表比对一下不就知道了，谁知一比对，吓了一跳，对不齐的有几百条。
浏览一下，原因大概有两个：
一、官方词表把idiom和phrase直接加在了词条后面，所以连同一楼的比对和替换表都得更新；
二、还是用bs4提取词头的问题。因为英英版包含了几部词典，所以标签结构比较复杂，一般正则不易提取，只得用bs4，也许是分析存在问题，更可能是网页标签存在问题，所以某些词头提取出现问题。
上面说的都是英英，英汉应该没啥问题，如果没人做，我有空可能会处理链接、删除冗余、增加js。英英不打算弄了，包括数据，至少暂时不再弄了，先把目前已知的问题上传，希望有高人接盘。