去了几十万个词头以内重复例句的现象,修复了一些不规范malformed json问题。
体积只缩小了几十MB。
实际上9千多万个例句,里面有四千多万是重复的,但是它们被分散放在了不同的词头下。也就是说,平均每两个例句就有一个重复,但是是归纳到其他词头以下的。也可以认为是一个例句里面会有两个词头被Vocab官网highlight,然后重复出现于各自的词头里面。
这是vocab官网的问题。不打算删除这类的一句两用的地方。不过删除了以后,体积会减半!(可用性可能也减半,毕竟第二个词头里面就没有那同样的例句了)