KANJI辞典无法查询词汇(误?)headword: 春秋繁露

headword: 春秋繁露
Dictionary: 旺文社漢字典第4版

经坛友多次提及后终发现,以上词头并不能在"物書堂"的任意一个搜索模式下被搜索到。只能用meaning模式搜了再跳转。挺耐人寻味的

附图吧

1 个赞

“繁”后有个括弧,显然是异体字+括弧造成的问题。

自己做mdx很容易解决,把有括弧的词条,括弧内的字都拆出来多做一个跳转。

不是括号造成的。



大概是因爲被算作書名/人名這樣的專名詞條了

其实monokakido辞典的索引部分感觉挺粗糙(全靠堆数量力大砖飞和软件端对预先提取的词语【或释义或习语或例句】进行全文搜索,logovista更优雅整齐),原理很简单,能不能搜到一个词全看开发者提取有没有漏。。。

有的辞典版本号很高了(修了好多次bug,一般也是受众多的、得到反馈多的辞典,x能见到不少反馈bug的帖子)。而汉字典这本自去年发布以来还是1.0版本,从来没更新过。

汉字典的问题我在x反馈了,不过一天过去了都没回复(明明开发者x高强度用户),坐等更新吧。

1 个赞

但是logovista體驗不好,ios版各種ui bug滿天飛。如果物書堂能修好索引,並加入全文檢索那就無敵了。

其实有能力加,开发者估计也懒得搞。目前的通用格式真要搞全文搜索显然性能开销太大,效率太低!不可能便于全文搜索。除非开发者下定决心大改格式加新特性。不过目前是忙于开发安卓版吧。

以下这个应用可以全文搜索,怎么做到的?每个句子都拆出来,然后用分词引擎把所有词语拆出来。也就这种小书合适,辞典不合适。
表現のための実践ロイヤル英文法

1 个赞

软件开发是收益和开销之间的权衡。

和你的看法相反,物书堂的词典格式在我看来更优雅整齐,是精益求精的结果。全文搜索很依赖分词器,通常分词器都是为服务端设计的,速度优先意味着内存占用问题是不考虑的,准确率优先导致词库的体积非常大,还要对多国语言的支持,物书堂通过预先分词避免了内存和体积的问题,又保留了分词的准确率。

logovista 和 epwing 的分词器都是一元和二元分词,没有真正意义上的词素(有意义的最小单元)级别的分词器,搜索结果看起来很多,实际体验不会很好,另外在准确分词的基础上,有很多优化索引的方案,这两都做不了。

你这个截图是词头还是例句的?如果是词头的话,这个分词是正常的,没有问题,我来也会这样分词,如果是例句的话确实不正常。

物书堂的全文搜索是不一样的,你可以截图下柯高八中文例句的分词结果。并不是 sqlite 有问题,而是 sqlite 的分词器有问题,sqlite 自带的分词器对日语和中文搜索结果不友好,一元二元分词这是从设计的根上就有问题。

都说了,物书堂没有真正意义的全文检索,logovista的全文检索是基于sqlite的实现。我之前谈整齐优雅方面,是针对整体的索引而言,最基本的检索词条功能。这里全文搜索措辞可能有误导,不过也就类似于把这些内容放到txt然后直接搜索(我认为就是在对预提取内容全文搜索差不多),其实用的是二分搜索。物书堂还会对这些内容做分词提取关键词而已。(我不懂技术细节,不明白为何要特地做分词)

物书堂有分词和倒排索引,就是全文搜索引擎了,不管用的什么算法,或者只是搜索例句,还是搜索完整的文本,sqlite 的搜索引擎还包含分词的 bm25 评分(好用的前提是正确分词)。

我截图的这些就是倒排索引:

分词的作用介绍:

给定例句:

她会说一口流利的普通话

物书堂分词的结果:

她/会/说/一口/流利/的/普通/话

logovista 的分词是这样的(epwing 版本,明镜国语的 sqlite 版本我没有看到有虚拟表,应该只用于存储文本数据,也可能新版本变了,没看过):

她/会/说/一/口/流/利/的/普/通/话
她会/会说/说一/一口/口流/流利/利的/的普/普通/通话

logovista 的分词结果中很多冗余,这里的「通话」是容易出现问题的地方,假设用户搜索包含「通话」的例句,他实际上不会想看到包含「普通话」的例句,物书堂的分词结果没有这种问题,但 logovista 就有这些问题了,如果这种分词放到完整的文本中,错误的结果会更多。

一元二元分词也有优点,搜索结果不会漏,很适合古文搜索,各有权衡吧。

再介绍下三字及更多字的搜索,以「普通话」为例:

物书堂:「普通」+「话」的倒排索引做交集,搜索最长串(猜测)。
logovista:「普通」+「通话」的倒排索引做交集,二元分词。

1 个赞


日国的一些词头也没匹配好 比如这个:index_pointing_up::nerd_face:
:woman_gesturing_ok:すみやかんず
:woman_gesturing_no:速やかんず
:woman_gesturing_no:速─
有谁要修嘛?

需要等一个有热情、有时间会日语、会制作mdx且富有耐心的有缘人 :skr_guodegang_smoke:
可能需要五百年 :rofl:

等2032年就行了,第三版日国大会上线app。2026年会发布测试版,不知道会不会有app。