《中文大辞典》词典制作计划正式启动!!!招募合作人

中文

一、《中文大辞典》词典制作计划正式启动!!!

1.背景:《中文大辞典》是最后一本用文言编写的大型辞典,内容详实全面,具有较高阅读价值,故决定制作此书详细检索(仅词头,非全文)。由于当年图书采用刻板印刷方式,导致现在使用最高清的图片(600dpi)ocr仍然出现混排、错误率极高的情况,故决定采取需要人工打字输入方式制作。
2.详细实施步骤:拟招募20人(当然人越多越好),将全书页码均分(共17244页),平均每人输入词头(仅)约850页。根据个人测试速度,1小时能录入6页。就算普通上班族,一天抽1.5小时输入,约4个月就能完工。
3.你获得的:参与制作的人员(打够850页数,人多则会任务量更少),在计划结束,将会获得全网最高清的《中文大辞典》(全套40册,600dpi,90G)原始图片。
4.参与人员请加【:heart:】QQ群(632514376),内有具体输入说明和教程。需要有一定语文水平,认得繁体字的朋友。

二、《中文大辞典》(全套40册,600dpi)原始图片,例图
链接:百度网盘-链接不存在
提取码:l9ea

不会公开分享吗?

1 Like

做出的mdx会公开的

2 Likes

为什么不用 OCR?

不如图片给 hua 在本论坛架个公开的 Wiki?
词头由网友补全

2 Likes

这是个好想法,这是算是造福同胞了。虽然我用不上

一个人打多少字?

40册的版本我还没看过。家里是十本的。
站上的版本好像是用大汉和辞典的辞头做的。
中文大辞典有删去一些日本相关的辞头,
所以会比较少。

我在想可不可以先用大汉和辞典版本的辞头,
依第二字笔画排序(对照笔画输入法)后,
用每页头尾的辞头及其编号来定出页码。
不过第二字笔画相同要依字形起笔点、横、直、撇排序就不知要怎么做了。
好像有的中文编码是用这排序的?
王云五四角号码?
字形起笔又会扯到笔顺各地有别。也是会有问题。


有考虑过,但是综合工作量,感觉和手打词头差不多

这是手工刻版的老书,ocr出错率太高了。

37万词,可能将近100万字,就算两边论坛有10人愿意几乎算是免费帮忙,一个人负责10万字,相当于两本康熙字典了。按照楼主给的图片,分三栏OCR之后简单处理了一下。

【一 丈威】
【一丈紅】
【丈素】
【一丈翎】
【丈黃】
【丈菊】
【一】
【一上一下】
【一上一通】
【一上不下】
【ロ】
【一 ロ三舌】
【ロ吸盡】
【一口吞】
【一口氣】
【一口】
【一山

1 Like

中文辞头碰到不会念的字,
对用拼音、注音输入法的人有困难。
一些字形相近的字也可能会选错字,
所以我想用校正的方式可能比较适合大家参与。

笔记一下“笔画排序”
Excel 和 WPSSpreadSheet 都可以依笔画排序。
写程式式可以参考下面连节,不过看不太懂。
https://www.itread01.com/content/1545514574.html

書中沒有詞頭索引?孔網上看只有單字索引,做詞典的人也太偷懶了吧,本書文本電子化官方也在進行,也可以等它的文本弄好再去抓取。不過目前他們的工作效率極其低下,不知到猴年馬月。

這個效率還是可以,先識別,再校對 工作量會少很多

官方的电子化貌似已经停止。官网上不去了。至于识别,我试过了,这种雕刻版的书,识别出现三栏混排的情况。校对的功夫不比人工量少。

计算机确实能简化过程,但是这个字典的原始文档还是需要人工创造。

卷帙浩繁,需要很多人手;而且生僻字太多,专业性强。
如果闭门造车,参与者的工作质量参差不齐,要复查又相当于重新来第二遍。

最好的办法就是公开Wiki。
在错误诸多的OCR结果上,有兴趣者边阅读词条、边与原图词头对照,生僻字用部件檢索工具拆解输入词头。其他参与者对前面某个词头校对结果有异议的,可以在该页面回帖讨论辨正。
如此假以时日,方能功德圆满。