正在制作新的词典格式 KPBD

已完成:

  1. JSON 索引简单样例:make.json.zip (2.4 KB)
  2. CSS 样式表全局变量解析,方便用户自定义配置:字体样式大小颜色段间距。

目前进展:

子词条如何处理还没有想法,子词条指在同一个词条下的派生词、词组和短语,很多子词条已被二次提取,搜索的时候会出现重复,词条聚合显示的时候,同样会存在冲突。

已完成:

  1. 索引里子词条冲突问题解决了,代价是需要处理更复杂的 JSON,后续会考虑在已提取 JSON 的基础上提供简明形式的词典。
  2. 拼音和假名(读音)的搜索和排序已完成。
  3. 支持单词词形还原、日语活用形还原、汉语繁简通搜,需要使用自定义词典。

目前进展:

没有什么大的问题了,KPBD 格式生成器的初版应该可以在一到二周内提供。

2 个赞

已完成:

  1. 初步完成 JSON Schema 的设计和适配。
  2. 实现词典文本的繁简转换。
  3. 实现日语活用形的算法还原:当词典查找失败时,回退到算法还原。
  4. 完成资源文件的内嵌:图标、封面、简介、附录和需要安装的字体。

目前进展:

KPBD 格式生成器下周末可以提供测试,初版不会支持导入拼音和假名(读音)的索引,涉及到 JSON 设计和重排序,需要再整理下思路。

格式本身的规范文档是否(完全)公开?

开始设计的时候没有考虑过第三方解析的问题。目前除了内嵌资源外的所有文件包括词条文本都是围绕 B+ 树存储,这种结构直接读取不是件容易的事。现在还处于开发的早期阶段,很多想法还没有明确,有没有人使用都不清楚,只能说边走边看了。