empty

(帖子被作者删除,如无标记将在 24 小时后自动删除)

2 Likes

拉丁语言 分词中的stemming 模块

1 Like

词形变化有一本「JumpToDicts」就够了,不用给每个词典都加跳转

做英文词典更需要的是词组,但这个每本词典都不一样,也不好统一,就只能每本各自提取了,不过提取确实也不太容易……

hunspell,自带提取词干的功能,允许自定义词典

1 Like

源自 pda,完不完善不清楚,反正用着挺好,版本:

JumpToDicts by Ryuya

-Mdict:merged from JumpToDicts 3.0(2015.2.26) and JumpToDicts(phrase,2015.6.16)
-Entries:152658
-Latest edit:2020-5-7

JumpToDicts.mdx (2.2 MB)

2 Likes

可能确实每个人使用习惯不一样,是有这种需求。如果是使用 JumpToDicts 的话,至于说来源可能不太可靠:

大部分还是没问题的,来源有少许不太可靠的部分其实不大影响的,就是一个辅助工具,谁查词典会那么盲目呢是吧;另外,这种词形变化应该不好做的吧,没什么普适规律、有不少特例,有点错误也是可以理解的。当然,要能真做得百分百的准确性,那自然是值得赞扬的,不能话有个九成的准确率也足够用了。

如果这个数据集的建立还有利于短语的提取及短语形式的跳转,那确实不错;就是个人建议哈,如果作用不太大又耗力的话,觉得没必要浪费百分之九十的力气去追求那百分之十的提升。

1 Like
$ echo 'downloaded' | hunspell -d en_US -s
-> download

hunspell 在这方面算权威了, firefox 和 chrome 都是内置的这个,各种辅助翻译的软件也是用这个检查拼写。缺点是少量变形词没有处理,如 drove。

1 Like

The Free Dictionary.com 带有重定向(redirected),就是这正确性……
#thoughtsandprayers - Idioms by The Free Dictionary

Dictionary.com 也可以从索引页提取出重定向,多为词形变化,可忽略不计。
https://www.dictionary.com/browse/acclimate
https://www.dictionary.com/browse/acclimated

常规的词形变化很多词典有,其中有分词性的 牛津高阶麦克米伦

衍生词则通常位于词典的Derivatives板块,比如 Lexico.com
image

韦氏足本则位于
image

每本词典都配上词形变化实在是很多余哈,直接用一本集合,想用就用,不想用就关,它不香嘛 :rofl:

期待楼主的大作噢

请问哪里有lemmas表
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=20253
(出处: 掌上百科 - PDAWIKI)

1 Like