将 zim 格式的 Wiktionary 转成 mdx

Kaikki 提供的 JSON 数据不完整,缺少词源部分。这里提供一个思路,用 Kiwix 的 zim 文件转制 mdx。

zim 下载:

http://download.kiwix.org/zim/wiktionary_en_all_maxi.zim

Linux 发行版:Alpine Linux

工具安装:

apk add zim-tools --repository=http://dl-cdn.alpinelinux.org/alpine/edge/testing

工具使用:

zimdump dump --dir=DIR /path/to/filename

我计划逐步停用有版权问题的词典,明年年初的时候,制作一份 Wiktionary EN 2022。

2 Likes

太可惜了…少了仁兄給的福利…但不解的是gd不是可以跑zim格式嗎?為何還需辛苦的轉成mdx

  1. 我想修改 zim 内的 html
  2. GoldenDict 垃圾
1 Like

是喔!gd 讀取 zim 資料會有缺失喔!…沒注意過
不過轉成 mdx 也是好處多多,大家可以加工成更好的版面,或做額外的處理…

别去动goldendict 太浪费时间了,我曾经想动,还是忍住了。mdx其实也很渣。

dylan_lee 兄,不解你說的,請進一步說明…隱藏性的問題是哪些

这是专业问题,mdx的词典数据格式设计得很业余。不适合机器处理,冗余过多。所以这么多年来全文搜索一直没法做。 goldendict 属于历史遗留问题,它后面有无数的bug和雄心壮志太多,导致没用的功能过多。
不过也别要求太高,免费的东西将就着用吧。

嗯嗯,理解了,記得 earthworm 兄提過,他認為Star dict 設計的數据架構更佳,好像是 XML 格式吧!…你的意思是否是若有好一點的架構轉成資料庫也容易嗎?然后可以自行弄查尋表單,和針對每個定義的欄位作搜尋,不用像全文搜尋那樣範圍太大,會搜尋到一堆不需要的資訊,個人覺得,辭典在某種程度上應該是如此,就像是MRP或ERP那樣的管理系統…然后每次查尋後可以把查尋結果以一個單號存儲,以后只要打開單號就可以複習了
個人對辭典的淺見
1,可針對某個欄位搜尋
2,每次搜尋後除了有單號存下搜尋結果,還可對搜尋結果的每筆紀錄做增刪,
3,可以對要查尋的表單做個人化的訂制,資料的顯示也是如此
4, 可以增加詞典的欄位,以利補進一些資料
5,可以對不同欄位所搜尋的結果作交集或聯集的表單顯示或資料的存儲

Lurker 兄怎心境轉變如此之大…太可惜了…

wikition是个什么库?为啥到处都能看到?

就是维基字典,跟维基百科一个公司的

I’m using Docker on Windows 10 for openzim/zim-tools. The zim file is F:\zim\html wikipedia.zim. The folder to contain html is F:\zim\html.
image

I use docker run -v /f:/zim -w /f:/zim -it openzim/zim-tools:latest zimdump dump --dir=/f:/zim/html wikipedia.zim

But it returns an error Exception: error 2 opening file "wikipedia.zim. Do you have any idea about this issue?

Can’t offer you any advice because I’m totally unfamiliar with Docker.

1 Like

Dear Akira:
Try this

I actually used the Docker installation from your link.

. ./zimdump -D wiki …/wikipedia_cdo_all_maxi_2020-02.zim
extract_zim.zip (1.5 MB)
I didn’t try, it could be worked on dos command.

I unzip the file and get
image

However, the program does not start when I double-click on it. I’m on Windows 10.

It should work on linux…

1 Like

1 Like