做出的mdx会公开的
为什么不用 OCR?
不如图片给 hua 在本论坛架个公开的 Wiki?
词头由网友补全
这是个好想法,这是算是造福同胞了。虽然我用不上
一个人打多少字?
40册的版本我还没看过。家里是十本的。
站上的版本好像是用大汉和辞典的辞头做的。
中文大辞典有删去一些日本相关的辞头,
所以会比较少。
我在想可不可以先用大汉和辞典版本的辞头,
依第二字笔画排序(对照笔画输入法)后,
用每页头尾的辞头及其编号来定出页码。
不过第二字笔画相同要依字形起笔点、横、直、撇排序就不知要怎么做了。
好像有的中文编码是用这排序的?
王云五四角号码?
字形起笔又会扯到笔顺各地有别。也是会有问题。
有考虑过,但是综合工作量,感觉和手打词头差不多
这是手工刻版的老书,ocr出错率太高了。
37万词,可能将近100万字,就算两边论坛有10人愿意几乎算是免费帮忙,一个人负责10万字,相当于两本康熙字典了。按照楼主给的图片,分三栏OCR之后简单处理了一下。
【一 丈威】
【一丈紅】
【丈素】
【一丈翎】
【丈黃】
【丈菊】
【一】
【一上一下】
【一上一通】
【一上不下】
【ロ】
【一 ロ三舌】
【ロ吸盡】
【一口吞】
【一口氣】
【一口】
【一山
中文辞头碰到不会念的字,
对用拼音、注音输入法的人有困难。
一些字形相近的字也可能会选错字,
所以我想用校正的方式可能比较适合大家参与。
笔记一下“笔画排序”
Excel 和 WPSSpreadSheet 都可以依笔画排序。
写程式式可以参考下面连节,不过看不太懂。
https://www.itread01.com/content/1545514574.html
書中沒有詞頭索引?孔網上看只有單字索引,做詞典的人也太偷懶了吧,本書文本電子化官方也在進行,也可以等它的文本弄好再去抓取。不過目前他們的工作效率極其低下,不知到猴年馬月。
這個效率還是可以,先識別,再校對 工作量會少很多
官方的电子化貌似已经停止。官网上不去了。至于识别,我试过了,这种雕刻版的书,识别出现三栏混排的情况。校对的功夫不比人工量少。
计算机确实能简化过程,但是这个字典的原始文档还是需要人工创造。
卷帙浩繁,需要很多人手;而且生僻字太多,专业性强。
如果闭门造车,参与者的工作质量参差不齐,要复查又相当于重新来第二遍。
最好的办法就是公开Wiki。
在错误诸多的OCR结果上,有兴趣者边阅读词条、边与原图词头对照,生僻字用部件檢索工具拆解输入词头。其他参与者对前面某个词头校对结果有异议的,可以在该页面回帖讨论辨正。
如此假以时日,方能功德圆满。
链接失效了,可以重新补一下吗
你的是纸质的还是电子档的,如果是电子档,可否分享
你好! 是纸质的。是在台挖三民书店2008年购买的。对质量有些问题,有斑点。你可以还找到一套。我在一家印刷厂看到一则广告。