Tio词典(中英、中日) | 登樓古籍全文檢索

感谢楼主,词典非常好用!

与此同时我有点疑惑和想法:

  1. 这个全文搜索的背后使用了什么技术呢?

我自己有稍微研究过,不需要各种跨表搜索的话,PostgreSQL 加上如倒排索引优化后,速度狠不错。

而 NoSQL 的方案里最常见的就是 ES (Elasticsearch) 了,但非常消耗服务器资源。
最近我发现了另一款不错的替代者,ZincSearch,用 Go 写的,非常小巧,速度很快,还兼容 ES 语法。

它还自带了一个 Vue 写的前端,这是我灌了些字幕语料后的搜索截图:

  1. 中英平行语料还可以有个来源,就是机器翻译训练语料,很多是大赛主办方准备的,质量还不错。(毕竟如果质量不行,参赛选手训练出来的结果准确率会下降。)
    这个博客提供了不少下载链接,包括你曾经想找的字幕语料库。

  2. 是否考虑过 TED 这样的语料呢?比如在 Opus 上可以找到整理好的一个旧版本。

  3. 是否考虑过合作呢?我对进一步优化这个项目很有兴趣,嘿嘿。

5 个赞