关于【云辞书协同编纂平台】的发想

自从共和国肇建以来,我国的辞书编纂事业大步迈进,一日千里,不时有新编的荟萃思想精华、反映时代面貌、记录语言生态的语文辞书发行入市。尤其是《现代汉语词典》这一无数学人的心血结晶,更是被推尊到了“国民辞书”的无上地位。它的每一次修订更新,都紧随时代变化,因应社会需求,就影响力、受众面而言任何一部同体量普通语文辞书都莫与之京。但进入到新世纪后尤其是近五年,数字技术狂飙猛进,“电子词(辞)典”、“网络词(辞)典”、“融媒体辞书”、“数字(化)辞书”、“多模态词(辞)典”不时见诸学人的口中笔下,大家无一例外都预感到在插上数字化翅膀、搭上人工智能快车后,传统语文辞书可以跃现更多新机,焕发更多活力。作为与共和国国运文运呼吸相通的出版重镇——商务印书馆,自然也是辞书数字化一大提倡、践行者。商务与海笛“联姻”以后,《现代汉语词典》app终告诞生。但就实际使用体验而言,现汉的电子版除了新增标准发音示范、书写笔顺演示、近反义词提示、关联词链接外,似乎就没什么可喜的变化,未免令人感到慊然未满。因此论者(我)才有如下构想——众筹/合建一个维基百科式的公有、公享、公治的【云辞书协同编纂平台】。这一平台具有自由访问、开放编辑、动态更新的特点,不同教育程度、不同专业背景、不同生活地域的人可以是知识的汲引者,也可以是内容的创出者。在架构设计、界面布局、模块分化、功能操作上可以参酌国内一些组织机构研发的辞书协同编纂系统(如社科院语研所的cocal系统(面向语料库机助辞书编纂系统))、新理念数字辞书项目成果,并结合实际需求进行优化,打造用户友好度更高的辞书编纂平台。

随附对本人启发较大的相关论文:
i 辞书编纂系统相关
面向语料库机助辞书编纂系统的设计与实现_张永伟等.pdf (2.3 MB)
数字化辞书协同编纂系统的设计_张亚斌等.pdf (1.5 MB)
人机交互式的汉语辞书编纂系统_吴杰等.pdf (1.1 MB)
大数据背景下BCC语料库的研制_饶高琦、荀恩东.pdf (1.2 MB)
ii 融媒体辞书设计相关
融媒体视角下多模态词典文本的设计构想_章宜华.pdf (13.1 MB)
现代学习型词典的“多模态化”与符际模态配置研究_钱亦斐.pdf (6.9 MB)
融媒体时代数字化词典编纂出版的现状及其问题_唐舒航.pdf (1.5 MB)
数字时代_纸质辞书的挑战与融媒体词典的机遇_吕靖.pdf (1.1 MB)
传统辞书融媒之路_孟杨阳.pdf (1.3 MB)
辞书融合出版的优化路径研究_——兼评《现代汉语词典》(第7版)APP_刘永俊.pdf (1.1 MB)
多模态电子词典界面的空间布局及其功能分析–以光盘版《朗文当代英语词典(第五版)》为例_罗永胜.pdf (957.8 KB)
论融媒体时代对外汉语学习词典的编写与出版_许舒宁.pdf (1.1 MB)

以上是我个人的一点想法,聊作引子。大家可以就着这一话题随意发想,各贡己言,各发己声,探讨实现的可能性及具体的实现法 :smile:

2 个赞

像 Urban Dictionary?
macmillan 也有弄一个 crowdsourced dictionary.
可以先参考看看。

1 个赞

有点类似,都是在线众包辞书,不过感觉可以有嵌套更多的功能模块,比如基于涵盖各种语体、文体的大型语料进行数据挖掘、文本分析后展示相关的字串(语块)组合方式及出现频次,既有常见的语词搭配,也有次要的作为备选的语词搭配;又比如通过可视化词谱让大家查知与所查询目标语词同一语义场、具有家族相关性的关联词,共现频率(互动性较强)的关联词,等等一系列共振词簇;又比如将图书馆著录的各文献书目信息爬取下来,查询目标词时还可以以之为关键词提供相关文献的章节线索以供用户进一步探究研读。

类似维基词典?

维基词典
https://zh.wiktionary.org/wiki/Wiktionary:首页

除非有机构支持,做这种平台很难成功。

1 个赞

模式类似,但拒斥一味机械拆解、抄袭别的既有辞书,而是鼓励参编用户参综各种辞书相关词条内容以及对相关书证的分析进行重新描述(解构再结构)。像维基词典把汉语大词典内容扒了个遍遍的做法根本不可取:rofl:

还云辞书,说起这东西来就郁闷。云辞书其实就是网络词典或者需要网络的词典,这玩意对网络的依赖就像吸血鬼依赖血液一样。买了海笛的很多个正版词典,几年后发现有的词典就没法用了,说明一下不是需要每年订阅的那种。没法用了是指海笛这混沌从服务器把那词典应该是删了吧,因为在华为的软件商城里都找不到那词典了。海笛不要脸的地方还有呢。上面说网络词典依赖网络。海笛的很多词典就这个熊样。你如果手机不联网,你就没法查词,是绝对没法查词,海笛的很多词典制作的时候就没让用户下载完整数据,只是把词典数据放在他们服务器上。这就是最大不要脸的地方。明明花钱买了正版,就是不能正常使用,海笛又不会给你交上网费。
所以说,什么云辞书或者网络词典,还要靠得是信誉,当然有时候单纯有信誉也没啥用。马云不是交出阿里巴巴之后才活了下来吗?这就是单纯有信誉也没多少用。
很多年前有个大米盘,大量用户往上传了很多资料,后来就被关了。zlib也是这样

构建这一平台的难度确实是有的,但也不是难如登天,只要人齐、心齐、力齐,相信还是大可一为之的。作为辞书编纂参照的基底语料库语料收集是其先决条件,与辞书编纂相始终,需要不断完善扩充。如果让用户自行上传语料,再经审核,择优选用,短时间内应该可以建设一个十亿字符以上的语料库。我一个人可以贡献将近两亿字符的文学小说语料,都是ccl、bcc、国家语委语料库所未收录的。另外如果能为用户上传语料提供相应的自然语言处理(基本的分词、词性标注功能、词频统计、词际二元组合形式筛滤)并支持下载到本地(用户上传语料加工后的文本),相信也能增加大家上传语料的积极性。

还有这悲催经历:,我咋没撞上呢 :joy:我手机装载的《现代汉语词典》和《日汉大词典》app都还可以正常使用。至于你说的没法让用户下载完整数据,不独海笛未然,物书堂不也如此吗?说白了你付费购买的只是没有实体的数字辞书的在线搜检权力而已。不过从另一层面考量,如果用户可以随意拷录词典app的数据内容,那也就意味着可以随意传播了,不论对于出版社这样的内容生产方还是海笛这样的内容加工方来说打击都是致命的。
还有你说的zlib被关停那是历史的必然吧,它践踏的是相关单位、个人的合法权益,虽然短期看惠利众多读者多多,但如果还在著作权保护期内每一部书都可以被无限制免费下载,长此以往哪一个创作者还会耗费脑力进行“创造性”生产,十年、二十年、五十年乃至百年后,出版商-创作者这一共同体还会存在吗 :melting_face:

你说“如果用户可以随意拷录词典app的数据内容,那也就意味着可以随意传播了,”这就有点过了,“随意拷录”怎么解释?是复制里面的词条还是完整的词典?为何就不能复制?一本纸制的词典才多少钱,随时可以用,它们弄这个随时就没法用了。还有买正版的人难道就是为了买了之后免费复制给别人用吗?有这种逻辑的人,好像基本都不在世了。
你咋没撞上?你就和武汉那个敲锣女似地,如果你不知道武汉敲锣女怎么回事就上网查查。
盗版是违法,确实违法。但是你电脑里和手机里的软件都是正版吗?你绝对不敢说。就连中国电信使用的操作系统都是盗版,中国邮政储蓄银行使用的操作系统基本也是盗版。它们缺钱吗?
电脑软件也就这几年才开始出现订阅(按月付费,按年付费),之前不都是花钱买到之后永久使用吗?盗版是对原作者有伤害。现实是国内人的那种平均收入水平,没几个人的收入能支撑电脑和手机里的软件全用正版。国内有几个人的收入可以一个月就买一部苹果手机?没有多少人。病毒之后就更没多少人了。
至于你说的那些国内创作者,我指的是词典作者,很多都是相互抄袭。汉英大词典的作者吴光华不是也是因为抄人家的内容太多被告了么?

1 个赞

我不懂,你思维跳脱性太强了,恕我无辞以对 :dizzy_face:我抛出了一个话题,结果你却别有神解,鬼来擘口般牵连到了另一个话题,又是盗版书网站又是盗版软件盗版系统什么的。。。。。。 :scream:

是你非要提出盗版这个问题,认为人家购买了就可能有复制给别人的这种行为,或者简单说盗版。也就因为你这个逻辑才引出盗版这个问题的。所以我要问你用的软件是不是都是正版。
至于你没撞到词典下架问题,很正常,因为你没装那么多词典,你遇到这种问题你也会上火。又不是没交给它钱。收钱了就要能用。客观说,用海笛的那些词典真不如用卡西欧的电子词典合算,当然有人会说卡西欧的电子词典全新的一两千元,如果感觉这价格高,咸鱼上有二手的,有二三百元的能用的卡西欧电子词典。二三百元买海笛的手机词典软件也就能买两三个。

我不是海笛的重度用户,你的痛我无法感同身受哈 :laughing:卡西欧已经是旧时代的产物了,现在网媒为主,纸媒为主,欧路、深蓝在手,海笛、卡西欧云云也就没人去关注了。

1 个赞

你前面提到版权的盗版的问题,再提欧陆深蓝就有点逻辑混乱了,欧陆深蓝用的mdx词典基本都是盗版的,你不会不知道吧?我也不是海笛的重度用户,只是在没使用mdx格式词典之前买了很多个海笛的词典而已。就算是后来我使用了mdx格式词典,我用手机查单词的量真不多。当然我也有卡西欧电子词典,也是在没使用mdx词典之前买的。使用mdx词典之后,卡西欧电子词典就使用少了。当然也用,因为有时候会发现mdx词典里面有错误。需要用卡西欧词典验证。至于说旧时代产物,那只是你的观点而已。等你上不了网的时候,你就会发现卡西欧这种词典那么好用。你说卡西欧没人关注了,还真不是那么回事。主要是卡西欧全新词典定价的问题。就像很多人用盗版操作系统一样,不想花钱。如果出现严打盗版,那么使用欧路深蓝词典的人会大幅度减少。

不矛盾啊,mdx词典基本都是没经过合法授权的盗版词典,那没错,但是欧陆、深蓝没干碍吧,只是加载mdx词典用途软件而已。我不鼓吹盗版,但我仍认为在目前的环境下需要有一定的灰色地带,因为迄今为止都没有一个较为成熟的集成式词典库方案【可以想象一下十多部辞典app,查一个词要互相参照却要打开十几个app是多么烦琐的一件事,耗时耗力效率低下,而且检索模式还很单一,就像现汉app不支持反查,没法据义查词】。而欧路、深蓝的存在恰恰为大家提供了一个汇合所有词典进行竭泽式搜索的平台,它的存在有其合理性。再者我本题中所谓的云辞书平台就是基于已有辞书成果进行的创造性加工的成品。我们每个人都是独立的个体,都是汉语语言生态的参与者,当今社会白衣苍狗斯须万变,现代汉语词典限于出版周期较长,很多新词新义缺收,没办法像日本大辞林网络版一样进行动态更新是一大缺憾,而云辞书平台或多或少能补足这一缺憾。

本地应该有数据,每个app都好几百mb大小
只是你每次搜索它都要网络校验防破解,你断网还是可以点译显示内容的,搜索还是会显示索引的(不过某些持续更新的app断网后看不到搜索结果了),就是无法打开释义界面

这个不好说吧,微软纵容盗版其实都是从企业捞钱,你企业装盗版等着吃官司吧。。。

就算是本地有数据,它让你查不到,也是一种神经病的做法。毕竟人家给它缴费了。再说不是谁都能破解软件的。

我们本地的电信和邮政储蓄就是用盗版,绝对错不了。它们电脑上连个杀毒软件都没有,的确没有,当然盗版与杀毒软件没任何关系。
image
说明一下电信和邮政储蓄都不是我的企业,更不是我工作单位。

它们用盗版有几个原因:

  1. 为了省钱,它们虽然不缺钱
  2. 它们单位领导基本都是半吊子,就算是不是电脑盲,也差不多,至少它们电脑水平差得要死。
  3. 它们单位大多数不会装系统,就算是会装,工作人员也不会去干这种事情,因为单位里很难找到操作系统安装光盘。因为它们最初都是别人给它们装的系统,就算是出故障也是找人去给它们修。
  4. 它们根本不在乎是否被微软起诉盗版,因为反正罚款也不是从它们自己腰包里掏钱。就算是单位多赚多少钱,员工也未必能多发奖金。
    可惜的是微软打击盗版的确实不卖力,要是微软请我去给负责打击盗版,估计中国的企业全关门了。
1 个赞

我可以贡献比较长期的服务器,内存8G,流量每个月3T左右,每年大概投资300-500上下,预期10年内是比较稳定的,不过鉴于中国的流量政策,流量非常的贵,流量过多是亏本的买卖,建议设计的开始就节省流量,简化页面,只加入文本,不开放下载,并且防止爬虫。

我觉得还是应该尊重之前词书的知识版权,并且加入查重机制,这样才能长久,并且有意义。

感觉这样触及版权的项目是国家部门应该做却没有做的,关于版权和协同编辑,我对之前供职瞭望东方的任冲昊等人成立的睡前消息工作室,做的相关新闻比较感兴趣,可以参考:

1 个赞