《汉语大词典》v2.0 原始纯文本

mixivivo · 2022 年1 月 18 日 11:13

有足够的数据，足够的算力，机器也许能够编更大更全面的词典。比如说，一台超级计算机拥有了爱如生的全部数据，超星的全部数据，CNKI的全部数据，然后，1）提取数据库的全部单字；2）将数据库的全部文献基于《汉语大词典》既有的词组分词，提取所有独立词组，未包含于《汉语大词典》的词组另立新条目，并对其验证（比如需要两条以上的独立书证，也可以适当专家人工介入辅助）；3）从数据库里挑选适当数量的例证（怎么挑选，可以设计一套算法）；4）用聚类算法对某一词组的多个词义进行分类；5）汉语词典释义其实属于语言内部翻译——从古文翻译成现代汉语，可以借鉴成熟的双语翻译系统，用AI自动给2）生成的词组释义；6）再次专家介入校订机器生成的释义。

有这么一套系统，个人独立研编一套比《汉语大词典》更全面更准确的词典也并非不可能，像《大汉和辞典》，“5万汉字、53万条辞汇”，其主力也是諸橋轍次一人而已。不过好消息是，汉语大词典出版社也是爱如生什么《中国基本古籍库》的买家，但愿其第二版可以做得更优秀一些。