GoldenDict-ng(Linux/macOS/Windows)基于Qt5.15.2/Qt6.X版本

一会新编译一个版本,索引大小减少了3倍(是之前的1/3).

2 个赞

全文索引的文件截个图看下,你上面的截图不是全文索引的文件,是查询的索引文件。你下载的是zip包的版本吗。

1 个赞

刚用GD不久,全文索引的文件在哪个文件夹呢,1655楼的qt6.3.2版可以进行全文索引。对是ZIP版,索引不起作用

我的版本没有合并xapian的代码,这是现在有xapian的全文索引的样子

1 个赞


还在进行全索引中,索引完后多了这些带FTS的文件,这些应该是全索引文件吧
这两个版本好像能互相引用,6.3.2的版本能用上6.31的词典和词典配置,我再删掉一个试试

你这个是旧版,或者我编译的不支持xapian的版本,xapian的全文索引都是文件夹

去掉位置信息,超过3个字的中文可能会出错。(猜测

github的最新版,看来搜词组容易出问题

索引时加了英语的stemmer,其他语言会出错,不建议加。

PS:之前没怎么了解过xapian的索引,只知道ZIM在用,前面看到40G的索引,还猜测是存储了完整的原始文档,没想到光索引就能这么大。

doc.set_data( std::to_string( address ) );

最新测试版在启动时总是会重新索引epwing的词典:

词组加双引号。不加的话。是或的关系

1 个赞

最新的xapian吗。后续看下

stemmer会处理到其他语言吗。对词典类。多语言的是个问题

去掉位置后。不能进行 near搜索和phase搜索(各个词出现的顺序必须一致)。 基本用不到这两种搜索
有点副作用,这种应该算是phase搜索。没法保证顺序和距离了。

是的,使用stemmer的时候,要提供指定语言的文本。搜索体验和索引体积之间是很难平衡的。

https://xapian.org/docs/apidoc/html/classXapian_1_1Stem.html#a16e0f0e2cd00cf906de544d615a2e753
貌似可以指定fallback

不适合词典用。大多语言检测的库第一步是区分书写方式,比如中英这种,这种好认,第二步是统计不同字符组合出现的频率,不同语言的特征是不一样的,但对双语文本就很困难,因为这种统计不是精确到段落、句/单词级别的,很可能判断出错。

1 个赞

是的,最新的xapian版

您分享的这本epwing词典,怎么展开搭配的例句啊?点击词条下的跳转链接,不显示内容

image

这个链接 ,链接的是词条中的一部分内容。不支持这种形式。目前gd只支持链接到词头
红色部分的链接指向的是


绿框中打开的文本中的,其中一部分文本。

1 个赞

哦明白了buding