汉语大词典从没经过转码的文本(自动转码谬种流传)

汉字转码和繁简转换是两个不同的问题。过去,港台电脑中文系统的内码是Big5,大陆电脑中文系统的内码是GBK。现在电脑系统的内码是Unicode,但是还可以制作GBK或Big5内码的文本。
《汉语大词典》简体光盘2.0的内码是GBK,繁体3.0的内码大概是Big5。
Big5的字比GBK少,繁难字必须造字。造字是跟着特定字型走的,一换字型就错,假如再转码,当然会错得一塌糊涂。这种问题只能人工校对纠正,无法用软件自动转换。因为没有软件能预测在某个字型某个区位里放的到底是什么字。
假如资料转码后再进行繁简转换,又会再添一层错误。
依我个人的浅见,除非愿意人工校对纠正,就别用繁体3.0的资料。用Gbk简体光盘2.0重新抽取资料,不要进行繁简转换,本来简体就简体,繁体就繁体,然后用图像版增补资料。这样弄出来的版本就真正可靠。