我认为刚提取的数据补不了哪个版本的数据。即使能补也补不了多少。
因为在之前提取的数据相对齐全。而且原数据本来就有问题,整理mdx的人陆续改了。比如:爱手反裘。(绝对的硬伤错误。)
你有兴趣,可以拿这个数据去和feiwu的《汉语大词典复刻》比较:
feiwu:汉语大词典2.0源数据
feiwu根据图像本补了一点新资料。
《汉语大词典》施工现场11.2
这个有方正版文本。
汉语大词典光盘版2.0,另附3.0光盤版
这个是光盘+方正+若干来历不明的资料。
你可以拿方正版去补这个2.0mdx。
假如你爱好版本的纯洁性,认为有来历不明的资料不行,那就干脆拿新提取的资料,重新做一个mdx吧。我认为用处不大,但是假如纯粹是做研究,就做看看吧。
假如你愿意对着图像版,拿方正版的文本去补这个新做的mdx,那等于开创了一个新版本,那倒是有价值。但是,三十几万条,你能补多少?价值按你能新补充的资料判断。
想从头来过的人,即使想超越feiwu的《复刻》,恐怕也不是太容易。