有足够的数据,足够的算力,机器也许能够编更大更全面的词典。比如说,一台超级计算机拥有了爱如生的全部数据,超星的全部数据,CNKI的全部数据,然后,1)提取数据库的全部单字;2)将数据库的全部文献基于《汉语大词典》既有的词组分词,提取所有独立词组,未包含于《汉语大词典》的词组另立新条目,并对其验证(比如需要两条以上的独立书证,也可以适当专家人工介入辅助);3)从数据库里挑选适当数量的例证(怎么挑选,可以设计一套算法);4)用聚类算法对某一词组的多个词义进行分类;5)汉语词典释义其实属于语言内部翻译——从古文翻译成现代汉语,可以借鉴成熟的双语翻译系统,用AI自动给2)生成的词组释义;6)再次专家介入校订机器生成的释义。
有这么一套系统,个人独立研编一套比《汉语大词典》更全面更准确的词典也并非不可能,像《大汉和辞典》,“5万汉字、53万条辞汇”,其主力也是諸橋轍次一人而已。不过好消息是,汉语大词典出版社也是爱如生什么《中国基本古籍库》的买家,但愿其第二版可以做得更优秀一些。