词库种类及使用方法

词库种类及使用方法

我现在主要从mdx词典中找有用的数据,直接用Goldendict检索mdx,或者用mdxExport解开mdx,整理资料后再导入Access使用。

在这之前,尝试利用过多种格式的词库,现在简单谈一下,供大家参考。个人技术和经验有限,说得一定不全面,欢迎大家补充。

1.Stardict格式词库:用Goldendict可以读,也可以转为纯文本再利用。Stardict大概在Unix上比较多人用。

转换工具:各种格式词典数据转TXT文本的工具软件(.BGL .LSD .LD2 .MDX STARDICT)

Stardict词库下载

Startdict词库转欧路词库方法

2.dsl格式:ABBYY Lingvo词库。这是俄罗斯软件,所以有很多俄语词典是这个格式。Lingvo词库压缩的格式是lsd,视窗桌面版的Goldendict无法读(安卓版可以),必须先用转换工具转换为dsl(文本),见上面的“转换工具”帖子。
本坛有dsl格式的词典,帖子区和资源库都有。关键词:dsl。帖子区和资源库的搜索方法见此帖

3.bgl格式:巴比伦词库。用Goldendict可以读,也可以转为纯文本再利用,见上面的“转换工具”帖子。
本坛的云盘有bgl格式的词典:FreeMdict Cloud

4.ld2格式:Lingoes 词库。Goldendict说可以读,但支持度似乎不好。我试过一两个,读不了。可以转为纯文本再利用,见上面的“转换工具”帖子。

参看:

灵格斯ld2转换程式

5.Pdb:Palm平台的Kdict、Zdict格式。用DeKDic转换为纯文本。这个好像完全消失了。

6.EPWING:ebwin格式。日文词典多。听说可以用ebdump转换为纯文本。没试过。资源库有EPWING格式的词典,资源库的搜索方法见上文。

7.ipa:iphone格式。见过,无从下手。

8.epub:是电子书,不是词库,附带一提:epub制作MDX方法

参看:

pyglossary ——多种词库格式快速转换的工具

4 个赞

.ipa 等价于 Android 安卓的 .apk 文件

1 个赞

做过类似调查,补充下:

Pdb :现存有两种格式用这个后缀,一种是 SQLite 的实现,还有一种是 Palm Database 的实现,Pleco,AHD+ 用的后者,Pleco 对这个格式做了大改动。

EPWING : Logovista 的内置格式,早先词典格式的标准是公开的,EBWin/EBPocket 可以读取到词典数据,现在新版本的部份数据已经加密。

StarDict :很多小语种词典应用的内置格式,韩国语/越南语/泰国语词典都有看到在用的。

3 个赞

补充一些关于EPWING的资料:

Rikaitan, EPWING and MDX dictionaries
EPWING is a dictionary format that was allegedly utilized in portable electronic dictionaries. To view EPWINGs you need Qolibri, a dictionary viewer that lets you search multiple EPWING files at one time so for every word you look up you immediately get multiple definitions.
Our community member, Epistularum, made a collection of EPWING dictionaries.

Epwing2Kindle: A guide on how to convert Japanese EPWING dictionaries to a kindle-readable format
1. Install the requirements
2. EPWING to JSON (yomichan)
3. JSON to Tab (yomi2tab)
4. Tab to OPF (tab2opf)
5. OPF to mobi (kindlegen)

4-11-2024

增加两种Goldendict-ng能使用的词库。

1.zim
主要是维基系列,还有一些网站的zim版。可以在kiwix.org下载。中文的zim会莫名其妙地掉字。维基网站的原数据不缺字,但是到了zim版会缺东少西。

词库下载参看此帖

解压zim可以用zimdump。我试过视窗版的zimdump,没有成功。命令行程式,在Linux上用应该行,我这个视窗用户试了多次后决定放弃。

参看此帖:

2.slob
Dictionaries
Word dictionaries (Wordnet and Freedict)
Wikipedia
Wiktionary and Wikibooks
Other projects

词库下载链接见github。

ECDICT English-Chinese dictionary
file: ecdict-enhanced.slob
Digital Pāḷi Dictionary
file: dpd-2023-11-27.slob
Chinese Moegirlpedia (萌娘百科)
file: zhmoegirl-20230507-alpha.slob
English-Sinhala Dictionary
file: english-sinhala-120908.slob
Uncyclopedia
file: enuncyclopedia-20150308-2.slob

slob的css
slob的图片是按需获取的,需要联网。无法联网的人可以修改Gd的style.css,隐藏图片。

原来拉丁文词典有不少slob词库。对拉丁文词典有兴趣的可以去看一下。

Latin dictionaries

There are many good dictionary shell options for desktop, and we publish our files in MDict, Slob, StartDict, and XDF for broad compatibility.

If you don’t already have a preferred dictionary shell, we recommend GoldenDict. This free, open-source app works on Windows, Linux, and macOS, and it supports a variety of formats (though we recommend using Slob files from this site). Reliable and easy to use, it’s the best dictionary app we know of for working with Latin.
https://latin-dict.github.io/

补充:这些拉丁文词典有多种格式,包括mdx、mdd。所以可以直接下载mdx、mdd来用。就不必用slob格式了。

2 个赞

对slob格式词库的补充:

freedict的词库是slob格式的。
For desktop computers, you are free to choose between a variety of dictionary programs. The most popular and advanced is probably GoldenDict. It can read many formats, including the dictd format. Just download the archive below to your computer, unpack it and then select import from the menu within GoldenDict.

Hint on windows: The archives are in the .tar.xz format. If you are unable to unpack this archive format, please download a program like 7-Zip.

freedict-org
选语言展示词库,例如:

Japanese - English, version 0.1 with 173747 headwords
Japanese - French, version 0.1 with 14891 headwords
Japanese - German, version 0.2.0 with 109546 headwords
Japanese - Russian, version 0.1 with 6742 headwords
https://static.karl.berlin/freedict/downloads/

唉,没有中文的。英文到小语种有一些。

PyGlossary可以读和写Aard 2 (slob)。

所以懂Python的人是可以把slob的数据抽出来的。

想把slob词库转换成mdx的人可以研究。

freedict有一些中文的slob。

Chinese - Indonesian, version 2024.10.10 with 82904 headwords [SHA512 checksum]
Chinese - Kurdish, version 2024.10.10 with 57555 headwords [SHA512 checksum]
Chinese - Latin, version 2024.10.10 with 100905 headwords [SHA512 checksum]
Chinese - Lithuanian, version 2024.10.10 with 85992 headwords [SHA512 checksum]
Chinese - Malagasy, version 2024.10.10 with 75100 headwords [SHA512 checksum]
Chinese - Norwegian, version 2024.10.10 with 97064 headwords [SHA512 checksum]
Chinese - Russian, version 2024.10.10 with 162072 headwords [SHA512 checksum]
English - Chinese, version 2024.10.10 with 24242 headwords [SHA512 checksum]
French - Chinese, version 2024.10.10 with 10047 headwords [SHA512 checksum]
Swedish - Chinese, version 2024.10.10 with 11077 headwords [SHA512 checksum]
https://freedict.org/downloads/

但是这些词库也有Stardict格式。不如用Stardict格式,也可以在Goldendict里用。Stardict格式也容易转换成文本。