图片词典故訓匯纂文本化过程记录

本贴非拉人头帖子,会把我OCR后校对的文本发上来,有同好的一起讨论的帖子。

目前的进度是全部OCR完了往回装,逐行、逐列校对。

逐行装回去保证不落行,不丢字。校对起来方便(装回去了800了)。

校对到了91页,校对起来过程还算行吧

最终能弄到哪里算哪里,通过前期的过程感觉到这货要消耗的工作量少不了,但怎么说也要有个开始。

本想一百页一发,刚开始慢还累就先弄到这了。

前期还是试着弄,是把OCR完的全装回去完事了校对,还是一边装回一边校对,都没想好呢。


0001–0091
0001–0091.txt (1.3 MB)

10 Likes

你有种,这个没有一两年搞不完

腻害腻害 :+1: 祝早日完成!
建议全装回去再校对。

不知道楼主用什么ocr的,我刚才用百度高精度试了一下,基本上没有错字,校对的话只需要看看序号和符号,这样如果参与的人多,工作起来也挺快的。


裁条、整页和1/4页分开都试过了,整体感觉选对提供服务平台比用啥姿势要重要。百度小打小闹还行,批量用它我没那勇气。

截图里不是有吗!合合(开始不限高度、现在限制了)、有道(这货现在要登陆了就不用了),除了个别丢行没其它的问题,都出现在首字为波浪线 ~ 的时候多,个别的也有丢行的但很少可以忽略不计。

免费试用的通道(除了每天有次数限制)要好于付费的通道。

分栏切开 OCR,整理文本也方便吧。用百度识别挺好的,我问过有道的客服,他们没有专门训练过繁体字的识别。

感觉大家对几栏几栏的有个误区,认为栏数多相对要做的就多。我都是用看图软件用按键精灵之类的软件上图上抓过去调用然后拿回文本的,单栏多栏一回事。

我猜整理文本应该都方便吧,目前费事的都是必须要手敲部分和{皃 兒 日 曰}之类的。其它的还真没啥。

1 Like

cool project.

mdx字頭索引有無用OCR索引來校訂?我早期作了個圖像版,臨時修了些字頭、加了異體跳轉,但沒有系統化地校訂索引。
image

1 Like

还没弄到那步,但逢词头都用部件檢索查过,不在基本区的都做了标记(OCR不出来的几乎都是基本区外的),除了301–405间的当时测试哪个平台的OCR位置信息好用所以抹去了图片上的词头外(那段为了快速按位置信息往回装回校对方便)。

到时可以拿过来那真的太好了。

目前先保证不落行,不丢失图片上的内容,把完整的内容都弄下来。

我記得當初的索引有錯形,例如不當有的簡體字,不記得有沒有錯字。字頭索引有排次信息,這點挺好。anyway,我可以幫忙校訂,只需要數據來比對。

1–860页。
1–860.txt (10.5 MB)
搜@就出来了。

1 Like

来个图文版啊,大神。

1 Like

期待您這個大作 :pray: