以 iOS 的自带词典的词库为基础开发 app 是否有版权问题?

本人有心开发一款中英词典软件,计划做个 web 版的和 iOS 版的。最近开始在网上找一些汉汉、英汉、英英词典类的 API 或者数据库,可是看了一圈要么收费高,要么质量次。到头来感觉还是 iOS 自带的词典(商务、牛津等等)还不错,且网上有现成的解析工具,可以直接导出所有词条和释义为 xml 文档,而且支持的语言很丰富。

我想完全依赖这些导出的内容肯定会有版权问题,但至少我可以把他们的词条做一个合并得到一个比较海量的词库,再以此为基础添加功能。但是不知道这是否会涉及一些问题?

1 个赞

不行的,提取释义,同样有版权问题。但是这个问题是可以绕过的,你可以自己解析词条,然后使用的时候通过苹果的官方接口,获取词条的释义。

缺点是,获取到的释义是纯文本,需要你自己做二次解析。另外苹果的内置词典每隔几年就会更新,可能下架可能被替换,什么时候轮到中文词典不知道。

PS:可以投靠 mdx 阵营。

谢谢。我了解。
释义肯定不能直接用。但是我仅需要词条的标题,比如自带的简体中文词典有70000个词条,繁体词典有80000个,我把他们合并下得到90000个独特的条目。我只用这些条目,这样就有了靠谱且离线可用的数据。而释义我通过别的方式获得。
不知道是否解释清楚了?

只用词头没问题。利用词头可以从语料库抽出例句,像这样:

Ichacha Sentence Bank

但是释义要到哪里去找?怎样把例句和对应的释义对起来,是大问题。

除非释义和例句都用公共领域的词典资料,假如有。

难弄。难道自己有能力编?有道的app都被批评了。

向导还是误导?错误频发的英语学习类App该管管了

“纸质版辞书的出版要经过非常严格的三审六校,电子词典被当成普通电子产品或软件来管理。因此,虽然市场上众多移动电子词典的生产者既不具备出版资质,又不具备词典编纂资质,甚至缺乏足够编辑力量,却编纂电子词库植入App或其他移动端。这是导致App上的词条出现错误的主要原因。”杜恩龙说。

谁来管?怎么管?

英语学习类App的内容到底归谁管?地方市场监督管理局相关负责人称,无权对英语学习类App的内容进行监管。出版部门相关负责人称,只能对英语学习类App涉及侵犯版权的问题进行查处。教育部门相关负责人称,无权对英语学习类App进行监管。

1 个赞

看欧路的内置词典就知道错漏百出,都没人愿意提取。

1 个赞

@last_idol
欧路的词典,大概不值得花时间批评。用武侠小说的典故,还不到能让任我行不佩服的水平。

金庸《笑傲江湖》
任我行笑道:“抱歉得很,阁下不在其内。”那人道:“在下如何敢与方证大师比肩?自然是任先生所不佩服了。”任我行道:“我不佩服的三个半人之中,你也不在其内。你再练三十年功夫,或许会让我不佩服一下。”那人嘿然不语。令狐冲心道:“原来要叫你不佩服,却也不易。”

@webern

英语单词词头,okayer已经做了一个,可以参考。

英语单词词头1000000

花了些时间搜集整理,一共103万的单词。几乎覆盖英文的所有单词以及所有变形。最重要的一点,所有的单词变化应该都是正确的。

这个也可以看看:

多功能英汉汉英词典,千万词头,4月3日版

自己做词典,假如要避开释义的问题,大概得做两个词库,一个是简单的英汉词汇库或很简单的英汉字典。另一个是英汉例句库。检索时在上下分别显示两个库的资料。不把例句和释义对应起来,让用户自己去对应。

就像linguee这样,其实是两个库的检索结果的综合。

linguee:“人在江湖,身不由己”

以前没想过为什么它这样做,现在想清楚了,不愿意付费得到版权词典的释义,又没能力自编一个详细的词典,就只能这样做。

linguee的背后是deepl。

这里有deepl一部分例句旧数据的样本,可以参考。

非常简单的英汉一对一对译字典,可以用朗道字典做基础。

Index of /尚未整理/共享2020.5.11/qwjs/09_朗道英汉汉英/

再加入大陆和台湾的词汇库

英汉例句比汉英例句常见,不过质量好的其实不够。假如能建立一个强大的英汉例句库,网站或app就会有足够的吸引力。

陆谷孙的《英汉大词典》为什么让人佩服?英文例句是经典,译文质量也过硬啊。

但是强大的英汉例句库很难弄,得先有一个庞大的英汉双语文章语料库,才能抽取例句。哪里有这种语料库呢?

2 个赞

你提供的资料的指点对我都很有用,无论是英文还是中文的,谢过。

我目前是想练练独立开发的技术,既想做一个帮助增加词汇量的工具,所以要词头,这已经有了头绪。同时还想通过语言模型来分析词典来搞点好玩的,但我目前没有什么构想。不知道你是否注意到类似的尝试?

请问 iOS 自带词典的解析工具哪里可以得到呢?
是 Python 程序还是 exe 呢?
解析是只能解析出来释义,还是所有相关数据呢?

我对此一无所知。

供参考:

Pre-trained Language Models on NUS HPC

自制简易近邻词汇映射集

20多行的 Python 代码就可以解析释义,词头需要自己提取。目前所有开源方案,都解析不了加密的格式,加密词头或者加密释义。

1 个赞

我直接用這個搞定:GitHub - JadedTuna/apple-dictionary: Tools for extracting data from Apple dictionary files (used by the Dictionary application on Mac).

2 个赞

感谢分享~ :pray:

你说的是串并不同辞书的词头,删冗去重,获取词头清单吧,再下一步释义如何搭接,引导chatgpt编辑条目吗 :laughing:私以为还有第三条路可走——与国内辞书出版业界市占率不高的头部出版社商谈版权让渡,通过许诺市场分成的方式获取电子版权,这样就可以绕过版权问题这个拦路之虎、阻道之山了。例如与中华书局商谈《当代汉语词典》的电子版权,这部词典断版已久,不曾增订,但仍不失为一部订例谨严、立目详慎的好词典。依傍中华书局,一开始就有些许人气基础。不止于此,还可以开放后台编纂权限,让用户充当编者,调阅同词目不同词典的释义,参互观之,咀嚼推敲。旁及《当汉》未予立目的词条,适当增补。最终在《当汉》的宏础上拓其旧庑,再树新魂。当然如果仅是把传统纸本图书的体例、内容一厘不移的套装在网络/电子辞书上,即使侥幸有APP/WEB端成品问世,也难以有成。勇敢突破旧式辞书的框框,在体例架构、内容编排上进行创新才是正道!

版权问题当然有了。但是你可以写一个教程让用户自己导出和导入,这样就是用户违法了

这种陷人于阱的做法不可取,也不利于一个辞书品牌的正向影响力的抟塑