异体字害死人!看帖子《“這蚤晚”与“這蚤晩”相同吗?》,联想到我查询《漢語大詞典》词头时的奇葩事……

从词典软件端入手,确实一定程度上可以解决词头的检索问题。

比如,在识典古籍搜索“后汉书”,后台实际上搜索(后)(後)(漢)(汉)(书)(書)的各种组合:


当然,在正规书籍中是不可能出现“后漢書”这种组合的。

责任划分,一个原则是“让专业的人干专业的事”。很多MDX制作者并不十分熟悉前端技术,所以我不赞成去要求制作者去不断改进MDX以适配各种词典软件,而应该是MDX用户去问熟悉前端的软件作者。

至于异体字这个场景,要求程序员去解决,并不是“让专业的人干专业的事”,所以才会看到“后漢書”这种组合。何况即便是由资深专家主持制定的《古籍印刷通用字规范字形表》,也有诸多质疑声音。

(后)(後)(漢)(汉)(书)(書)只是解决了词头的问题,但难以解决文本自身的进一步再利用。不知道古籍专业的LLM训练是不是先将古籍文本简体化再喂给大模型。