关于【云辞书协同编纂平台】的发想

我简单捋了捋,这个云辞书编纂平台工程要搭建起来,除了能提供数据栈房(服务器)的韩哥你,至少还需要具备NLP专业背景的分析员、汉语言文学专业背景的审核员、网站搭建和管理的技术员,这是最基本的前置条件。我这段时间再在网上各处广发英雄帖,看看有没有志趣相合的愿意与我们携手 :joy:要成大事,就得有各专业背景的大佬加入作为压船石,才能行稳致远 :smile:

关于版权侵权问题,我在想最好解决方式是预加载的作为参照系的各语文辞书词条内容不公开显示,只在后台用户发起词条编纂时显示相应内容,并且每天同一用户词条编纂条数设置上限。还有查重机制的话,得倚赖机器筛查和人工核验双重模式。在主流的语文辞书《现代汉语词典》、《现代汉语规范词典》、《中华语文大辞典》、《全球华语大辞典》、《国语大辞典》、《汉语大词典》等辞书中如果刨去书证、配例,单单比照释义内容的话你会发现在普通语词方面有很大比例重合度百分之八十以上的词条。

不至于吧?
这种单位别说盗版了,就是正版都不敢再用了吧?

它们电脑上都是Windows系统,它们那笨样怎么可能会用Linux?

你如果逼着它们用Linux,它们会骂死你。就像它们离不开微信一样,就算是它们哪天因为在微信上发信息被抓了,它们还是不会认为是微信的问题,还是离不开微信。微软系统也是这样。它们可以以爱国的名义给人去砸车,又U型锁砸人,但是你如果让那些使用苹果手机的人去用厉害国的手机,它们可能会找到你家门收拾你。你还让它们用Linux。它们只见过QQ,微信,电脑管家,360安全卫士,淘宝,支付宝,你如果把这些东西从它们电脑删掉,你可能见不到明天的太阳。你如果真让它们使用Linux,它们连打印机驱动装不上,连字有可能打不出来。它们连打字就那么几种花样,很多年前赵本山给搜狗输入法做广告,它们就用搜狗,后来又有腾讯的,百度的,它们甚至不知道微软还有输入法。它们最不常用的浏览器就是微软的浏览器,它们用得最多的是腾讯的浏览器,360浏览器。

你的想法是对的,先招个草台班子,等招好了可以联系我。 你觉得大概多久合适?

1 个赞

这个贴子更多是要讨论云辞书的编纂问题,各位讨论辞书版权的话可以留下,关于操作系统的话题建议另立新贴。

先行感谢了。

这个想法很好,我是学马克思主义新闻学出身的,可以帮助做做政审,把握条例, 另外建议找找学法律的朋友,看看哪里有空间。

嗯嗯,基本的骨干成员得到位才好大展拳脚干他一场!时间我也说不准,我现在加了一个群,由清华大学自然语言实验室学生牵头建的,他们现下开发的“wantwords”和“wantquotes”新意缺缺,就看下周用户调研、产品内测有没有什么让人眼前一亮的东西,说不定咱俩要搞的就是别人想搞的,就不烦床上叠床屋上架屋了 :joy:你可以加他们客服微信(DeepLang_FL),后续再一起观察一下!

个人对清华还有这种项目是有一定的了解的, 我感觉他们并不会做这样的事。 (这不是一句负面的评价)

不过你可以多招兵买马,扇风点火,没准他们就做了。

嗯嗯,且观后效呗!这些个学生蛋子感觉如果真有野心的话应该会跟我合拍 :laughing:

感觉你们二位要是联手,清华北大那帮学生蛋子恐怕没啥戏唱 :laughing:

或许真个就很可笑吧 :sweat_smile:我从一部日本另类励志剧《我只是还没有全力以赴》读出了一点——一个人如果连做梦的勇气都没有,那么这个人一定是可悲的。就像观剧的剧迷说的,虽然自觉并非珠玉,却又不甘与瓦砾为伍。只要心中还存有一丝希冀,就可能在剖判不清的混沌人生中找寻出真我!我就想试试,头可破血可流,何妨!

感觉用Wikipedia的程序就可以初步实现你的想法了,很多小语种/国家的词典,都是用这个完成协作的。

豪萨语/英语双语词典

不太可啊 :rofl:这个不翻墙根本进不了。。。

个人还是从项目管理,技术路线上来理解这件事的, 我16-18年在五道口的创投圈混过, 常去清华喝咖啡,当时的室友就是在清华交流,做程序语言方面的工作。

清华的这个更多是和人工智能, AI里的语言处理,也即这个方向中的中英文翻译,以及延伸的文章修改方面上来做的, 模仿了国外的一些项目, 和您说的事情应该很不搭, 不过,如果有NPL方面的学生对这个感兴趣,在清华申请立项,可能就会做,否则感觉以清华现在非常 “务实” 的学风来说, 应该不会有继续的可能。

1 个赞

我觉得做一个这个东西的中文版,能维持下去就很好, 就是版权问题可能不好搞,如何在尊重出版社诸位同仁的基础上进行编辑,会是个问题。

找成员的话,推荐在各个网络平台,各个大学相关专业的渠道都发一发,试一试,比如程序员麋集的V2ex。

个人感觉这个项目是要久久为功的,人多以后并不一定会很好,您提的几个方面当然重要,可以先做出点有用的东西,打下框架,然后在未来的5-10年里慢慢等人,打磨积累。

个人感觉能搬运,组合一些已有的好的框架就很好, 这方面不需要创新,您喜欢日剧的话,我举个日本例子给您,就跟日本人开饭店一样,营业第一天挂上布帘后,就一直挂在上面,无论发生什么,坚持开下去,就是百年老店,自然有独特的味道。

最大的症结所在是我俩都是文科生出身,对编程语言谈不上摸着门道,因此很多事情得假之人手。还有一点这个项目本身就是一个不以商业效益为追求的项目,要找到一个精通此道的技术控又告诉他要有产出可能得不到相当回报的心理准备,很难得到对方的积极响应。我除了清华学生这一条线之外还尝试接触过两个nlp领域大佬,不过都没有回音 :joy: