J̥H́-交流 - 词典软件词库格式设计之纯文本格式词库

这个帖子的缘由是 查字典的一个思路,用filelocator全文检索文本化的字典
虽然大概率这个主题帖还是会遇冷(表示深刻理解大部分人,其实并不关心这个,不过少数人改变世界嘛,多数人只能逆来顺受而已),不过作为启明代表,还是发个主题帖,引一引同好思考吧。

文本其实并不局限于txt,html其实也是文本,dsl也是文本,不过因为很多文本格式并不是设计给人阅读的,所以就没有考虑一些人的需求。

就词典来说,我觉得其实还是可以设计一份.dict.txt的标准并践行的,比如为了最大程度的兼容mdx的标准,可以如下:

a
<p>
the explanation for a but with a line limit of possibly 80
characters after position 80 go to the next line
</p>
</>
b
<p>
the explanation for b but with a line limit of possibly 80
characters after position 80 go to the next line
</p>
</>

然后,类似于filelocator的软件就可以很好的用来查这种文本化的词典了。甚至,可以定制软件,只grep </>后面词头行,然后提取下一个</>之前的内容作为解释,词典查询时间O(n),n表示文件行数。

文本化词典的优势是,便于修改;劣势是,查询效率较编译了的词典或者sqlite更低。不过我觉得对于词典来说,本数少一点,也不至于慢的不能接受。

不引进专门数据库的初衷究竟是啥?

文本化词典的优势是,便于修改;