新的辞书格式 WarblerDict 【简介,预告】

出于个人需要,以及 MDict 的生态混乱和全文搜索支持很差的状况,在过去一年里实现了一个新的辞书格式 WarblerDict

主要特点

  1. 对辞书的词头进行优化索引,不依赖数据库和 SQL,读取速度快。检索复杂度可优化至 O(1),读取速度不受词条数增长的影响。(最差的优化条件下,OED 深度提取版 575932 条词条,普通机械盘随机读取用时 370 毫秒/每词条。)
  2. 支持词条智能搜索,支持模糊匹配、拼写纠正、词性词形转换、同义词等价、检索提示,无需进行词头扩容@@@LINK= 跳转。
  3. 可插拔、可扩展式的索引,用户可根据需要下载制作者打包好的索引文件,无需本地重复建立索引。内置支持全文搜索、近反义词搜索、例句搜索、搭配搜索(N-gram)、辞书特色板块搜索、英汉反查、交叉搜索,通过编写脚本或配置文件可任意定制其他搜索模式
  4. 保留词条顺序, 可自定义排序。
  5. 可生成辞书目录供浏览阅读使用。 生成目录可自定义排序,筛选,设置层级和可见性。目录顺序可重排,可与词条顺序不同。
  6. 可一键从 MDict 辞书转换生成新格式和相应的索引。
  7. 和 MDict 相当的压缩率。(因为索引的需要,新格式生成的文件体积通常比 MDict 略大 1%~5%)
  8. 丰富的编程库(SDK)和用户界面。提供现代化的界面设计,简洁、美观、易用。
  9. 可一键发布或下载辞书,用户可搭建或浏览辞书库,管理辞书库的下载、上传权限等。
  10. 可一键生成 Online 版的查词网页,可配置自由访问权限。
  11. 内置 CSS 样式库和常用 JS 组件,词典之间相互隔离,异步加载。
  12. 词典文件支持差分更新和实时修改。
  13. 内置 SHA256 Checksum 完整性校验

目前的进度

辞书格式:定稿,完成
搜索:完善优化中
SDK:完善优化中(技术栈 Python, Golang, REST API, Java, JavaScript)
转换和查词程序+用户界面:原型设计中

FAQ

1. 新格式是否开源?
WarblerDict 辞书格式的文件结构和相应的 SDK 全部开源,转换和查词程序待定。

2. 新格式何时会发布?
近两个月可能会放出 DEMO,预计 2021Q4 至 2022Q2 陆续发布。

3. 查词程序支持哪些平台?
计划支持 Windows, MacOS, Ubuntu, Android, Web. (IOS 待定)

31 个赞

期待一波。

1 个赞

百花齐放,坚决支持!期待中。。。。。

支持,期待!

1 个赞

支持!!感谢大佬!

支持!我们能做的就是帮忙测试、词典格式转换搬家

如果楼主可以实现对epwing的支持那就无敌了。现在要兼顾mdx和epwing只有用ebwin

支持大佬,请设置赞助功能。

牛又来歪楼的 :joy:

1 个赞

好强大的样子

1 个赞

其实如果要制作新格式的话,就没必要局限于某种格式或某个软件了,完全可以制作一款把epwing或mdx转到新格式的转换软件。只是按照楼主现有的描述,是无法把epwing的大部分特性转换过去的

3 个赞

楼主,问一下,WarblerDict能否直接支持mdxbuilder3.0或者mdxbuilder4.0生成的mdx呢?@warblerdev
另外,楼主可以把你开发的词典软件分享出来,大家帮忙测试一下

1 个赞

期待中。。。

牛逼得不行,膜拜

太棒了!百花齐放

2 个赞

看到仁兄的簡介,感覺功能相當驚人,對於圖片詞典製作上不知可有差異或有其它額外的工具支援,或是有更佳創意的處理方法,盼仁兄於此圖片辭典製作上能加以著墨以利其製作

非常期待!:+1:t2::+1:t2:

老强大了,好崇拜 :+1:t2: :+1:t2: :+1:t2: :+1:t2: :+1:t2: :+1:t2: :+1:t2:

1 个赞

图片词典只能实现基本的功能,无法实现智能搜索。如果用户想使用未经校对的 OCR 进行搜索也是可以的,但体验可能会很有限。

对于其他格式的词典,均只提供转换的接口,不会原生支持。但用户可以在不做任何干预的情况下自动将 MDict 辞书转换为新格式,只需 MDict 辞书放置于给定的目录里即可。

2 个赞

warblerdev 兄,一個想法不知可否實現,也就是若經由滑鼠取詞的OCR可否建立一個 log 檔而這個OCR 的字可否綁定於詞頭或頁碼上,若可則可作為以后圖片修正的索引或查詢的索引,或許您可否提供更佳的替代方案或做法也是OK的… :sweat_smile:

1 个赞