《新时代汉英大词典》资料梳理

感谢老兄分享,昨天看到老兄分享了有关古音的xml,我对古音没兴趣,所以没看。

现在看一下这个《新时代》的数据,数据不错啊,结构清楚,可以处理成mdx能用的结构。

不知道这些xml数据里面还有没有别的值得整理的词典?也许K大都弄了?

所以K大的《新时代》mdx是利用xml数据做出来的?

我就疑惑K大是做mdx的老手,不至于会胡乱替换原文本的数据,怀疑是K大托人做的。

现在看一下原数据,就明白了:

<词条 hsk-level="">
老娘们
<SMALL>儿</SMALL>
</词条>

这个“儿”字在原数据中被置于词头的下一行,处理数据的人没考虑到,只提取了词头行作为词头,所以掉了“儿”字。