异体字害死人!看帖子《“這蚤晚”与“這蚤晩”相同吗?》,联想到我查询《漢語大詞典》词头时的奇葩事……

《漢語大詞典》使用繁体词头。我们知道,电脑可以调用API进行快速的“繁简转换”,论坛上众多标题为“正体版/简体版/繁简通检版”的词典就是这么来的。

就“简繁转换”的正确率而言,大抵30多万个词头可能出现1~2万甚至更多的转换错误,这些错误一般集中在“乾”、“著”……等等“重灾区”,以及一些模棱两可、似是而非的异体字上,你比方说:“棱”和“稜”,讲真,用惯了简体字,我们是无法辨识这两个字在繁体语境的常用度的;又比如说,“污”和“汙”,恐怕我们做梦也猜不到,“汙”才是中国台湾省常用的正体字!

可问题是,无论是“简繁转换”或是“繁简转换”,简体「为」字对应的是繁体「為」字,简体「众」字对应的是繁体「眾」字,简繁体「晚」字相同,……这些原本是一 一对应、毫无歧义的简繁转换关系,现在一旦将词头打成了笔画略有差异的“罕用异体字”:「爲」、「衆」、「査」、「晩」、「歳」、「産」……那么,这些词头就成了茫茫词汇沙漠中的孤独沙粒,可能永远也无法被用户检索出来!

2 个赞