关于【云辞书协同编纂平台】的发想

没事, 慢慢等, 实在不行自己学也是一条路,不要囿于自己之前上学时的身份,毕业以后,才是学习的开端,永远像小学生,去学,去解决问题才是常态,我有位现在在韩国游学的朋友之前就是学汉学出身的,现在也是靠每天两小时自学NLP,还有编程技术,不到半年也有所成就。

这门技术发展的很快,最近一直有重大变革发生,没有人可以说现在说精于此道的,从技术发展上来说,一切才刚开始而已,如果您决心入门,并且有这样一个要完成的问题去导向的话,相信不久就能做出不错的东西出来。

我觉得从项目上来说,这个项目至少是有机会会获得一定的影响力的,北京那边的学校如果有学生立项的话,还是有商业前景的,比如给辞典软件,新华社做配套,或者做创投里接腾讯的投资。

像你说的 Deep ai, 现在就成立了公司,商业上还是可能有收获的,不过中国人还是喜欢北清的创业团队,背后有背书。

对个人来说,这是很好的技术展示项目,这个领域在未来可能是很热门的, 如果在近1-3年能做出这个项目,至少对于程序员应聘腾讯相关的岗位是不错的CV,所以并不是没有收获的。

但个人建议,学点简单的, 先搬运一下外国已有的用着, 这样简单有效。

嗯嗯,自学致用也是一法 :smile:

哥,你前几天推介的v2ex真的是一个大宝山啊,荟萃了许多新知识、新思想,别是一般天地!尤其是看到一个程序员小哥不计收益仅凭兴趣驱使,利用工作余隙创作刑侦推理小说并且还独立建站作为小说展示、交流窗口,真的让人莫名感动哈 :joy:

窃以为,理念、理论可以慢慢慢完善。但开始实际(实践)第一步很重要,并能让理念、理论更快地完善!

可以这样地简单地开始实际(实践)第一步:

就是先做出几个词条来,三条、五条?8个小时可以做好?楼主自已做?先拟定出一个候选词条列表?其他人一起做?分别做?

先做出这样的小模型来,很多理论的东西就更明了了,讨论起来更省力了。
image

都不用8小时,1小时内就可以产出几百词条来m9(´∀`)。先明确自己想编的是一部对标**的词典,而后选定几部候选词典,再从中遴择出交叉词目(依此确定汉语语汇核心层·基本层的词头,再逐步外衍,补入其他词头)。然后amazing时刻来了,先刨除配例这块,对交叉词目释文进行文本重合度分析,你会发现有相当一部分相似度达到百分之百的,因为汉语辞书释义法有一个同义词释义法,就比如下面截图的“士兵”一例。再回到你开头说的迈出第一步,你意想中的第一步之前其实还得有好几步啊~( ̄▽ ̄~)~最核心的是得建立一个相当体量的语料库(语料储集我已经着手多时了),辞书数字化的第一要义就是将与语料库打通关,呈现更多的句法、词法信息给使用者。我们现在要落下第一子差的就是一个建站小伙伴,能够照着设计草图弄出大概的“粗坯”来,其他的就像你说的可以慢慢图之,逐步完善。

可以啊,我这几天想下该是怎么一个示例法,拿具体几个词条编写为例,连同大致的整体构造设想一并再说道说道 :smile:

1 个赞

可以参考粤语维基词典:維基辭典 内容不多,主要是参与人数少。

期待看到示例, 我感觉只要有特点,能满足现实的需要,需求清楚, 还是至少会有坛友愿意帮忙的。

我以“革命”一词为例对云辞书用户检索界面进行展开说明,可以参看 关于“言海”云辞书协同编纂平台用户检索界面的拟想——以“革命”一词为例 - 技术交流与词典编修 - FreeMdict Forum这个帖子。

1 个赞

哥,示例编辑好了,看我另外一条帖子。

确实啊,人多还好办事,人少起不到“众喣漂山”的效果 :joy:

刚想起 Forvo 也算云辞典成功的案例。
还有一个合作造字的网站,一时想不起名字

这平台要成功,一开始要架构好框架,
就像 word 的模版, latex 的 template。
这样才不会到后来要做大量的修改以达到一致性,事倍而功半。

看了下这界面还挺规整的。可惜我的平台构想可能无限期搁置了,没技术大佬加持、没同道之人帮衬,搞不起来啊 :joy:

中国哲学书电子化计划里面有个字典页面
可以直接查出原典出处。
等于是现成的语料库。

不过查出的结果并没有区分不同的释义。
我想这就是群众可以出力的地方。
把各条出处依不同释义分类
在分类的同时也可能发现一个词需要作出新的释义,
或是将系统查询断词错误不该出现的句子给隐藏起来。
分类先以汉语大辞语第二版为准,
为了避免版权问题,就只标上释义编号。
如果觉得汉语大辞典的释义不够精确,
可以加上自己的释义。

最好是能直接和该团队合作,
这样就有现成的技术大佬。
也有现成的爱用者可以广告及帮忙。
不过希望有法律人士先确认一下中国哲学书电子化计划的所有权状态,
不要最后成果被整碗端走。

看了下它的附属字典,加载的都是古汉语字典,所谓的原典也基本以古汉语典籍为主。跟我实质需求有点不一样。我所构想的云辞书是一部现代性辞书,更多是依赖现当代汉语语料(像仁兄所说的发现新词新义也主要就此语料进行爬梳而得),后面我的重点也是在罗掘这部分语料上,以期也辞书平台的建设打好基础。还有仁兄说的参酌汉语大词典进行释义订正,确实可行,当然啦如果兼综各部语文词典进行梳理可能更好点。至于合作的话我是很有意愿的,就怕理念不合,感觉他们偏重于古汉语一点,可能对我的想法不感兴趣。