J̥H́-交流 - 词典软件词库制作之基于开放数据的德语单词词性及变形速查数据发掘与处理

这个主题主要是在我探索了一番决定放弃的时候,做个记录,也给有更多兴趣的小伙伴开个头吧。

因为想干干净净地弄一份没有版权问题的(可以公开分享的)德语词性和变形速查词典,所以花了一些时间Goolge了一大圈。最后发现,德语领域开放数据并不是多,据我所知的,


20200503,

词典制作完成,考虑到已经给出了原始数据,而且本帖除了在憋大招准备发布词典软件的last_idol在交流技术问题。感觉没有人对这个德语项目有兴趣,所以就展示不分享词典了。

德语单词最强检验截图如下:

image

image

当然,因为是技术合成的,所以其实词典是有错的。不过为了降低误导率,我特意把可能有错的发音音标放到了最后。

为何说Band是德语词典最强检验呢,参考我自己买的一本书的照片吧。

image

20200502,

image


可用的带词性的德语数据

1. FreeDict 的 TEI XML格式的text文件

deu-eng.tei.tar.gz (1.7 MB)

eng-deu.tei.tar.gz (1.8 MB)

TEI XML具体什么格式呢,见 https://github.com/freedict/fd-dictionaries/wiki/FreeDict-HOWTO-–-Writing-Text-Encoding-Initiative-XML-Files

2. DING的 DING格式的text文件

de-en.txt.tar.gz (6.2 MB)

DING具体什么格式呢,不知道,得靠猜。

当然,以上数据都是GPL/Common CC Share-Alike协议的。


数据说明

1. FreeDict

    FreeDict数据难受的是,在German-English时German Word没有细致词性,就只有名词的n;而English-German的时候,German Word却有名词才有m,n,f。

image

image
image

image

2. DING


image

  • the above image is taken from the official webpage

DING的数据看起来还是不错的,不过折腾完FreeDict已经有点心力交瘁了,所以DING就放到以后再有兴趣的时候弄一弄吧。

数据放一放,有兴趣的朋友可以联系一起继续弄一弄哈。


另:我觉得FreeDict这个词典集合里面的数据,不仅仅德语,其他的语种也还是可以好好利用利用的。

2 Likes

看XDXF那边也有人推荐TEI,标准在这,非常详细。
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html

FreeDict在词典正派行当,还是有些名声的。因此,TEI其实也还是算得上设计良好的。不过因为用XML门槛比html高不少,所以用的人相对少了。

比XDXF的标准更加细化,门槛更高。