在Goldendict-ng中使用zim和slob

我是有听过zim,但是以前以为一定得弄另一个浏览器来看。

东一个浏览器,西一个阅读程式,资源分散利用,就没有效率。

所以以前没兴趣使用。

最近看到有人说Goldendict能使用zim,刚好zim档案里又有我需要的新资源,所以才去尝试。

Goldendict能使用zim,就表示zim的数据可以和大量mdx资源结合使用。这个关系重大,表示我已有的所有资源可以和新获得的资源整合使用,韩信用兵,多多益善。

原来本坛有人介绍和讨论过。

制作 ZIM 格式词典

ZIM格式词典用什么软件打开?

将 zim 格式的 Wiktionary 转成 mdx

Pdawiki也有人讨论过:

OpenZIM 格式的解包

下载完将近23G的有图版维基百科,导入成功。不过好像有些词条缺失,不知原因。

你可以记录下有缺失的词条的词头。

然后去下载别的zim浏览器,例如Kiwix,去查同样的词头,看词头有没有缺失。

假如Kiwix可以完整显示,就表示Goldendict-ng对zim的解读不够完善。

否则就是原文件档案的问题。

很早就在论坛介绍过了。ZIM 的中日维基百科问题很多,和制作的人不懂这两门语言有关,虽然数据是自动化生成的,没有全文检索需求的话,推荐用 MDX。

所以数据转为zim时就弄坏了吗?假设拆成html再转mdx,能正常显示吗?

meandmyhomies做的维基百科全都是这个数据源,问题一大堆。主要是好多字符缺失。

确实,zim版维基百科缺失词条太多,基本上没有使用价值。虽然下载了多半天,但还是删掉。但同样是中文的,维基文库就没有这个问题,只是目前还有数据待完善。

我现在从kiwix网站下载《维基文库》有图版,速度在每秒4-11mb之间,比维基原站的速度快很多。维基原站说限速,kiwix也许没有限速。也可能是这个时间段(早上七点多)快。

刚想下载的人建议试一试从kiwix下载。

本人小白一枚,请问那个是英文的?多谢!

我发现一个有用的讯息:kiwix.org的维基百科有某些课题是分类变成单独文件的。维基原站没有这种文件。

Index of /zim/wikipedia (kiwix.org)

有en字样的应该是英文的。maxi是有图版。

wikipedia_en_all_maxi_2024-01.zim 2024-01-21 09:15 102G
这个应该是完整的英文《维基百科》,102G的体积也太可怕了。很多人大概想都别想。

wikipedia_en_all_nopic_2024-06.zim 2024-07-01 13:34 53G
考虑用无图版?

wikipedia_en_all_mini_2024-04.zim 2024-04-21 06:47 6.9G
这是精选有图版?不知道用什么标准精选?

wikipedia_en_history_maxi_2024-05.zim 2024-05-15 10:02 1.7G
这个应该是历史类版。

wikipedia_en_computer_maxi_2024-06.zim 2024-06-15 23:39 907M
这个应该是电脑类版。

wikipedia_en_comics_maxi_2024-06.zim 2024-06-16 07:59 583M
这个应该是漫画类版。

英文的分科版做得比较细致。科学类又细分为物理、化学等等,体育类在单一项目下有更细的分类。

我没列出所有分类,需要找特定分类的人自己去看。

wikipedia_new_all_maxi_2024-05.zim 2024-05-16 12:22 171M
新增的资料分开?好主意。下载过旧版后,以后陆续下载新增的资料?但是这个是什么语言?所有语言的新增条目吗?

wikipedia_zh_all_mini_2024-05.zim 2024-05-13 03:15 7.0G
中文有图精选版?

wikipedia_zh_computer_maxi_2024-05.zim 2024-05-15 20:42 305M
中文电脑分类有图版?

wikipedia_zh_history_maxi_2024-06.zim 2024-06-17 05:29 363M
中文历史分类有图版。假如这个好用,我真没什么动力抽出数据来做mdx。都已经把数据分类了。但是我想要文史版。文学呢?历史版有文学和哲学吗?

wikipedia_zh_medicine_maxi_2024-06.zim 2024-06-17 06:27 330M
医学版应该有中医条目吧?

wikipedia_zh_top_maxi_2024-06.zim 2024-06-14 06:58 3.6G
top是精选版吗?和mini有什么差别?也许top是点击量多、受欢迎的条目?

以上纯属合理推测,未经证实。实践是检验真理的唯一标准。请大家自己动手实践,然后报告。

这个我也是新手。需要大家一起来探索、研究和做报告。

2 个赞

又下载了一个mini中文维基百科(wikipedia_zh_top_mini_2024-06.zim,781M),制作不错,相当于一部简明百科全书,大概就是取每个词条前面概要的一小部分吧。对于一般人来说,了解这些也就够了。此外,维基词典也不错,对于语言学研究者很有用。其他的暂时不想下载了,词典弄得太庞大,看不过来也用不上。

1 个赞

简明版是有用的。就是一种快查版。比一般词典的资料详细一点。

这种版本要改制mdx做校记,倒是比较方便的。

根据aimdict的报告,可知mini为简明版。

呃,我马上就有新的制作概念了:假如英文的mini和中文的mini能对起来的词条够多,合并之后,就可以成为《中英对照简明维基百科全书》,很有吸引力喔! :grinning:

在此以“论语”词条为例,对比一下全本《维基百科》与mini《维基百科》
全本:5746字;
mini:849字;
以下是mini维基《論語论语》词条的内容:
论语
《論語》是以春秋時期思想家孔子言行為主的言論彙編,為儒家重要經典之一。《論語》的“論”读作「」,為論輯、編纂的意思,「語」是話語、言辭的意思,如《國語》、《新語》之類,合起來指言论的汇编。《漢書·藝文志》稱:「《論語》者,孔子應答弟子、時人,及弟子相與言而接聞於夫子之語也。當時弟子各有所記,夫子既卒,門人相與輯而論纂,故謂之《論語》。」《論語》全書共20篇492章,以語錄體為主,敘事體為輔,較為集中地體現了孔子及儒家學派的政治主張、倫理思想、道德觀念、教育原則等。作品多為語錄,但辞約義富,有些語句、篇章形象生動,其主要特點是語言簡練,淺近易懂,而用意深遠,有一種雍容和順、紆徐含蓄的風格,能在簡單的對話和行動中展示人物形象。

论语
何晏《論語集解》
作者 孔子弟子及再傳弟子
编者 孔子門生
鄭玄、何晏、孔安國、皇侃、朱熹、刘宝楠、錢穆等
类型 文學作品[*]
语言 文言文
文字:漢字
成书年代 東周
保存状态 篇数:20/22篇
首次刊载处 无
出版地點 中國
系列作品
论语
篆文(上),繁體字(中)和簡體字(底)漢字中的“論語”
简化字
字面意思 彙編的話語
标音
官话
(現代標準漢語)
- 汉语拼音
- 威妥瑪拼音
- 國際音標 [lǔn.ỳ]
- 國語羅馬字
闽语
- 白話字
吴语
- 拉丁化
粤语
- 粵拼
- 耶魯拼音
中古漢語
- 中古汉语 lwin-ngjó
《論語》涉及多方面內容,當中包括儒家治國理念、人倫關係、個人道德規範、先秦時期的社會面貌,乃至孔子及其弟子的經歷等。自汉武帝“罢黜百家,独尊儒术”之後,它被尊为“五经之輨轄,六艺之喉衿”,是研究孔子及儒家思想——尤其是先秦儒家思想的一手資料。南宋時朱熹將《大學》、《論語》、《孟子》、《中庸》合為「四書」,使《論語》在儒家經典中的地位日益提高。元代延佑年间,科举开始以“四书”开科取士。此后一直到清朝末年推行洋务运动,废除科举之前,《論语》一直是学子士人的金科玉律。

mini维基在GD上显示的名称为:best of wikipedia ,大概也有“精华”之意吧。

best of wikipedia其实是指【top】版,即是点击最高的50K条目。
另有【100】指点击最高的100条目;
【top1m】指点击最高的1000K条目。
【all】则为全部条目。
这类关键词限制的是条目选取数量范围。

【mini】则指只保留略解;
相对【maxi】则包含略解、详解和图片;
【nopic】则含略解和详解。
这类关键词限制的是条目中内容的详略。

所以可以有top_mini,也有top_maxi和all_mini等等。

1 个赞

供参考:

What do mini, nopic and maxi mean in the Wikipedia zim files?
File size is always an issue when downloading such big content, so we always produce each Wikipedia file in three flavours:
Mini: only the introduction of each article, plus the infobox. Saves about 95% of space vs. the full version.
nopic: full articles, but no images. About 75% smaller than the full version
Maxi: the default full version.

2024年有图版zim仍然有诡异的掉字问题。使用这种电子版必须提高警觉,不对图像版或纸版,绝对不可引用。

“呂后本紀”变成了“呂本紀”。

还好我是用Access数据库的。图像ocr,检索ocr文字到图像,看图像。

【史記】
卷八 高祖本紀第八
卷九 呂本紀第九
卷十 孝文本紀第十

2019mdx版:
卷八 高祖本紀第八
卷九 呂后本紀第九
卷十 孝文本紀第十

免费的词典大概也就这样了。又试了一下历史维基百科,因为没有总目录,不知到底收了哪些词条,收录的标准是什么。给词典单独一个“历史”分组,想看看大致的内容,莫名其妙。比如有“苏轼”的词条,但查“汉高祖”、“刘邦”都没有,单独检索“汉”,仅出来这样一些词条,显然这样的词典也没有什么价值。不过人家本来就是“未成品”,在不断更新中,所以也就释然了。不过按理说,维基百科做得很好了,“历史”学科只是从中析出来的,不应该做成这样啊。


写词条的是内行的人,但是词条大概没有完善的分类标签。

导出资料的人不懂中文,导出程式对中文不友好,程式码有毛病,把数据弄坏了,做的人也不会知道。

没有可靠的分类标签,要做历史分类词条,就只能靠朝代关键词。那么,“汉”会出现,“汉堡包”也可能出现。

既然不好,就不必下载了。

《维基文库》还是有价值的,但是得配合其他数据库使用。

用的时候务必提高警觉,时时想到这个数据是不懂中文的老外处理的,随时会出问题。

我觉得说维基百科中文版的制作人员完全不懂汉语,可能有些夸张。但他们可能真的不懂专业,也就是“外行”。想起来可悲,中国人本来应该能自己做出更好的免费数据库的,现在却不得不借用别人的。