关于制作元数据集的讨论

(以下以英语语言为基础,小语种可以类比。不排除部分语言有一些我个人不了解的特殊需求,欢迎新开帖子讨论。)

编修词典时,考虑到查阅的便捷性,通常需要添加单词和短语形式变化的跳转。例如查询tests可以自动跳转到test.

就个人接触的内容来看,目前还没有可靠的数据集来方便、批量地添加这些跳转。因而想要建立一个公共的元数据集,姑且称之为 meta-dictionary.

数据集应当满足如下的要求:

  • 数据的准确性:形式变化应当只包含该单词本身,而衍生词则需单独列出。(通常衍生词具有不同的含义。)而形近词不在讨论范围,应当排除。
  • 需要包括词性(PoS, part of speech)信息:例如 responses 应当作为 response 的形式变化,而不是respond 的形式变化。
  • 需要包括尽可能多的词条。
  • 每一条数据都需要标记清楚资料的来源。
  • 规范、可重用(reusable)的数据格式。

欢迎提供:

  • 现成(但不一定完美)的数据集。
  • 可以利用的数据来源(例如xx词典的xx板块)。

也可以交流一些想法,提供一些建议。

数据格式:

{
    "id": "uuid <str>",
    "update": "last updated date <datetime>",
    "version_tag": "<str>",
    "lexeme": "<str>",
    "inflection": "<str>",
    "pos": "part of speech <str>",
    "is_alpha": "if contains [a-zA-Z] only <bool>",
    "is_canonical": "if contains [a-zA-Z'-. ] only <bool>",
    "verified": "verified by human or not <bool>",
    "source_id": "uuid <str>",
    "rank": "<int>"
}

数据来源信息:

{
    "id": "uuid <str>",
    "name": "<str>",
    "url": "<str>",
    "description": "<str>",
    "rank": "<int>",
    "verified": "verified by human or not <bool>"
}

支持任何关系型或者非关系型数据库,计划提供原始数据和API接口。

2 Likes

拉丁语言 分词中的stemming 模块

1 Like

词形变化有一本「JumpToDicts」就够了,不用给每个词典都加跳转

做英文词典更需要的是词组,但这个每本词典都不一样,也不好统一,就只能每本各自提取了,不过提取确实也不太容易……

hunspell,自带提取词干的功能,允许自定义词典

1 Like

请问有这一本词典“最完善”的版本吗?方便的话可以给个链接或者上传到论坛。感谢!

词组是另外一个话题,我目前还在做一些规范化的尝试,初步成型后会在论坛公开。

1 Like

小语种只能有劳各位精通这些语言的了,我目前还只能维护英语的数据集。

源自 pda,完不完善不清楚,反正用着挺好,版本:

JumpToDicts by Ryuya

-Mdict:merged from JumpToDicts 3.0(2015.2.26) and JumpToDicts(phrase,2015.6.16)
-Entries:152658
-Latest edit:2020-5-7

JumpToDicts.mdx (2.2 MB)

2 Likes

感谢 @hua @Mandolin @last_idol @loner 分享数据源。

这里想要说明一下为什么要对每一部词典都建立单词形式变化的跳转。主要是每个人使用习惯的问题:

  • 如果是查词频率不算高,有一本类似于 JumpToDicts 的词典就足够了;
  • 如果查词的时候手工输入,甚至可以不用任何形式变化的跳转;

但很多使用者是用软件的取词工具取词,这类用户通常有大量生词需要查:

  • 手工输入不便、耗时;
  • JumpToDicts 这类词典要求用户在列表中找到需要的单词,然后再点一下,量大的时候非常耗时;
  • JumpToDicts 这类词典的数据来源不一定可靠,(至少在英语中)很多单词的衍生词与形式变化很容易混淆,错误的跳转可能会在初期产生误导;

另外,形式变化的数据集也是为了短语的提取以及相应的形式跳转做铺垫。

1 Like

下面这个仓库用到了 WordNet 和 Pennsylvania 大学的数据:

但是不完善,例如缺少 downloading, downloaded 这类常见的词汇。

可能确实每个人使用习惯不一样,是有这种需求。如果是使用 JumpToDicts 的话,至于说来源可能不太可靠:

大部分还是没问题的,来源有少许不太可靠的部分其实不大影响的,就是一个辅助工具,谁查词典会那么盲目呢是吧;另外,这种词形变化应该不好做的吧,没什么普适规律、有不少特例,有点错误也是可以理解的。当然,要能真做得百分百的准确性,那自然是值得赞扬的,不能话有个九成的准确率也足够用了。

如果这个数据集的建立还有利于短语的提取及短语形式的跳转,那确实不错;就是个人建议哈,如果作用不太大又耗力的话,觉得没必要浪费百分之九十的力气去追求那百分之十的提升。

1 Like

可以先利用现在的资源建立一个公共的数据集,在使用过程中自然会发现各种可能的错误,然后像大家编修词典一样去改正就好了,也没必要一次性做的那么完美。至于数据来源的可靠性问题,算得上是一个相对次要的因素,其目的是使用正确率高一点的数据源,来尽可能减少后期修订的工作量。

1 Like
$ echo 'downloaded' | hunspell -d en_US -s
-> download

hunspell 在这方面算权威了, firefox 和 chrome 都是内置的这个,各种辅助翻译的软件也是用这个检查拼写。缺点是少量变形词没有处理,如 drove。

1 Like

hunspell 貌似是利用构词法自动生成的?有点不太明白它的原理,不知道数据是怎么来的

The Free Dictionary.com 带有重定向(redirected),就是这正确性……
https://idioms.thefreedictionary.com/%23thoughtsandprayers

Dictionary.com 也可以从索引页提取出重定向,多为词形变化,可忽略不计。
https://www.dictionary.com/browse/acclimate
https://www.dictionary.com/browse/acclimated

常规的词形变化很多词典有,其中有分词性的 牛津高阶麦克米伦

衍生词则通常位于词典的Derivatives板块,比如 Lexico.com
image

韦氏足本则位于
image

每本词典都配上词形变化实在是很多余哈,直接用一本集合,想用就用,不想用就关,它不香嘛 :rofl:

期待楼主的大作噢

这个问题在前面已经提到了,对于查词量大、使用自动取词的用户,这样的做法可谓是“灾难”,太耗时了。有了这个数据集以后,需要的可以对每本词典都配上词形变化;不需要的,可以直接拿来自动生成一本数据准确的 JumpToDicts,它不更香吗?

请问哪里有lemmas表


(出处: 掌上百科 - PDAWIKI)

1 Like