1468_0【定稿】.docx (11.6 KB)
1468_0【夸克】.docx (11.5 KB)
1468_0【全能王】.docx (12.0 KB)
这是1468页第一栏的ocr识别结果。总体而言付费软件的识别效率还是有保障的,标记为定稿的是全能王与夸克扫描文本对照校订后的文本,以我过往经验而言,如果再补入word扫描文本进行三方合校,校准度还可以上升一点,刨除拼音标注中音节隔断的空格字符和词典文本中原典出处引文与例证引文间的竖杠间隔符(这两者是最有可能扫描不准或扫描不出的字符),精度可以在1/10000以上。如果全书要转制成txt格式可校阅索引文本的话,还是很可以一为的,就是得耗费极大的心力。依照我的效率,半小时过稿量大概5—10万字符,平均每天20分钟的时间占用,通算下来也要将近半年才能完成初校文本,工程量还是挺大的。
我没有分栏工具,不知道其他人怎么做的。
EasyOCR 错误还是有一些:
- 袁(枚) // 漏字
- 排(日)出署 // 错字:月
- 奕(䜣) // 错字:诉
- (汉)墓、(汉)书 、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字:汊
- 汉(王) // 错字:壬
那玩犊子了,错字或者生僻字居其一正好落到词头上的话,词头搜索不到,词头的位置座标就拿不到,切词的边界就不能确定,这部分词就得人工切。
- 可以模糊搜索,然后标记准确度低的,人工确定词头切词。这样大部分的切词还是自动完成的。
留给厉害的选手解决!
这是从 mdx 还原出的词头关系:
hwdMain_to_hwdCand.txt (48.8 KB)
hwdMain_to_hwdCand_rev.txt (49.1 KB)
lenDiff_between_hwdMain_hwdCand.txt (4.5 KB)
lenSame_between_hwdMain_hwdCand.txt (44.3 KB)
picId_to_html.txt (1.6 MB)
picId_to_html_rev.txt (1.6 MB)
picId_to_hwdMain.txt (676.2 KB)
picId_to_hwdMain_rev.txt (1.2 MB)
这里总结下常见 OCR 引擎的识别结果。
PaddleOCR(开源) 生僻字、拼音无法识别,符号正确:
- 专(阃)久膺 // 错字:阔
- 孙(膑)兵法 // 漏字
- 五(一) // 漏字
- 分卒守(徼) // 错字:激
- 二(〇)八 // 错字:O
- (缮)甲兵 // 漏字
EasyOCR(开源) 生僻字可以识别,拼音无法识别、符号错误很多:
- 袁(枚) // 漏字
- 排(日)出署 // 错字:月
- 奕(䜣) // 错字:诉
- (汉)墓、(汉)书 、(汉)王、(汉)之粟、 (汉)齐盖庙碑 // 错字:汊
- 汉(王) // 错字:壬
百度高精度位置 生僻字可以识别,拼音漏了两处声调,符号正确:
- 奕(䜣) // 错字:诉
- 孙(膑)兵法 // 漏字
夸克扫描王(阿里) 生僻字识别错误,拼音全对,符号正确:
- 专(阃)久膺 //错字:间
- 奕(䜣) // 错字:诉
扫描全能王(合合) 生僻字可以识别,拼音全对,符号正确:
- 奕(䜣) // 错字:诉
- 二(〇)八 // 错字:O
白描(有道) 生僻字可以识别,拼音对全,符号正确:
- (一) // 错字:-
- 二(〇)八 // 错字:。
感谢 匿名1664 提供 EasyOCR 的识别结果。
感谢 将作大匠 提供夸克扫描王和扫描全能王的识别结果。
感谢 soso 提供白描的识别结果。
(需要识别的图片在 #28 楼有提供下载)
目前这几个 OCR 是可以做到全识别对的,但是不是这个识别标点不行,就是那个识别生僻字不行,故意难为我胖雄。
这是逼着人付费或者自己深度定制模型。
这个说法确实欠严谨,开明版源流大辞典和开明版考释词典之间其实还有个过渡版本——苏教版成语源流大词典(2003.6),这个版本背离作者本意,擅自更改书名、增删内容,行之不广。吴小如先生曾经大肆讥贬,详见《含英咀华:吴小如古典文学丛札》所载《释“风流罪过”——兼议责任编辑之“责”》一文。其稿本据称有九百万字之巨,并且附录有《熟语汇纂》,收录除有成语之外的习见熟语。这次修订遵照作者本意补录《熟语汇纂》也算是一大拨正了。
paddle ocr 自身使用复杂、开放参数多到离谱,效果应该最好,但它自带的模型不包括生僻字、拼音、标点,umi-ocr 封装时调参估计也没针对, 得自己深入训练调参,干!
最近流行说谢谢吗?我也来,谢谢大家愿意评论、分享。
白描OCR识别结果:
使群众信服。大:表示程度深。孚:为人所信服。宋·洪咨夔《平斋文集·二六·谢贾制置特荐启》:此皆已见于施行,务在更加于推广,大孚众望,弘济中兴。
后世多作[深孚众望]。《(清)刘坤一遗集·奏疏三四·11·提臣应行陛见暂请展缓折》:该提督老于戎事,忠爱性成,于同治五年蒙恩简授湖南提督,迄今三十馀年,专阃久膺,深孚众望,其朴诚忠勇,早在圣明洞鉴之中。
又作[深孚人心]。清·袁枚《小仓山房续文集·三二·淮徐营游击加赠文林郎田公墓志铭》:以吴人之浮薄,而封公(香泉先生)排日出署,竟齐其口,无一人造作蜚语者。非其道韵平淡,有以深孚于人心,何能如斯?
又作[素孚众望],素(sù):素来;一向。众望也作“物望”。物望:人望;众望。清·郑燮《郑板桥全集·集外诗文·潍县署中寄四弟墨》:此乃我弟忠信素孚于众望,故能令官绅两造,概行折服,诚属难能而可贵。《筹办夷务始末·二六·咸丰八年五月丁亥·1027·奕䜣奏》:天津乡勇现仍团结,果有素孚物望之官绅,实力训练,晓以大义,啖以重赏,必可得力。【深沟高垒】 shēn gōu gāo lěi 挖掘很深的壕沟,建筑很高的壁垒。指构筑坚固的防御工事。《孙膑兵法·五名》(银雀山汉墓竹简本):深沟高垒而难其粮。《史记·淮阴侯传》九二2615 (并见《汉书》三四 1867):愿足下假臣奇兵三万人,从间道绝其辎重;足下深沟高垒,坚营勿与战。
又作[高垒深沟]。《孙子·虚实篇》(《十一家注孙子》91):故我欲战,敌虽高垒深沟,不得不与我战者,攻其所必救也。
又作[深壁高垒],深壁(-bì):加高壁垒。枚乘《上书重谏吴王》(《汉书》五一2363、《文选》三九552下):深壁高垒,副以关城,不如江淮之险。
又作[深沟壁垒],壁垒:围墙;防御工事。《史记·黥布传》九一2600(并见《汉书》三四1884):汉王收诸侯,还守成皋、荥阳,下蜀、汉之粟,深沟壁垒,分卒守徼乘塞。
又作[深沟峻垒],峻(jùn):高。韩凝《汉齐盖庙碑》(《全唐文》二。八):以济水之南,深沟峻垒,缮甲兵,具车乘。
又作[高垒深壁]。《三国志·武帝纪》-7:(太祖)因为谋曰:“诸君听吾计……皆高垒深壁,勿与战,益为疑兵,示天下形势,以顺诛逆,可立定也。”
又作[高垒深堑],堑(qiàn):隔断交通的沟。《史记·高祖本纪》八374(并见《汉书》一上42):(汉王)欲复战。郎中郑忠乃说止汉王,使高垒深堑,勿与战。【深居简出】 shēn jū jiǎn chū 深居:居
住在隐秘的地方。《文子·微明》(《二十
我检查了下几个付费应用的接口,夸克用的阿里,全能王用的合合,白描用的有道。有道的生僻字识别我也反馈过的,没想到改进了。
有点奇怪,我用白描app扫描测试页面图像,“奕䜣”仍然识别为“奕诉”,不可思议(×_×)
我使用的是安卓端,28楼图片列。不过识别原所在整页,无法分隔,"阃"也出错。
这个属实有点无解,我使用的也是安卓端白描,但是扫描的是测试图片截取的“深孚众望”条文部分,识别出来就是“奕诉”。这次扫描全图,识别出来就正确了。不知道是不是白描扫描底部模型扫描逻辑中有涉及到上下文参照纠偏的机理
这里记述有误。
请看我另一帖收录的2009年开明版吴小如所作序言:
以及刘洁修自述后记:
两处皆称全稿为700万字。
900万字乃2004年吴小如先生不慎误记,2009年新写的序言已改称稿本700万字,当以后者为准。
哦哦,原来如此,是我失考了。不过关于这本书的数字文本制作我持跟你不同的观点,这本书在体例上别树一帜,搜罗甚丰,开掘甚深,在成语源流鉴辨上颇存发明开创之功,但是近几年内大概率不太可能有官方释出的数字化文本,毕竟它不像同类书同出版方同类书《新华成语词典》一样是面向普罗大众的普及型图书,但对于汉语文化尤其是熟语方面的研究者/爱好者还是很有裨益的。如果能制成数字化文本更便于搜检、补订,借助主流的扫描软件整理出的精校文本,文字错讹率可以比肩一般正规纸质出版品。
别灰心,一切皆有可能。就像早几年谁敢想象能用上《汉语大字典》的文字版呢?
据我所知,商务馆正在研发涵盖本社全部辞书资源的数据库。
若能校订出一部错讹极少(谁也不敢保证绝对无错),甚至比出版品还要精良的文字版,自然是好的。
我所反对者乃是草草了事,随意放出一个错漏百出的档案,那就徒增混乱了。
二者并不矛盾,不用急于求成。
这700万字的大书,你若能完成OCR后再全部校订一过,那可以称得上本站的「尊者」。
古语说得好,“ 积力之所举,则无不胜也;众智之所为,则无不成也”,这事还有赖群里的各位贤达共同参与、一起出力!我一个人可办不大来,太消磨人的精力了
全部校订一遍可行度是很高的,合合加有道,基本就够用了,合合每页 5 分,有道每页 7 厘,2437 页,总共是 122 + 17 = 139 元,你可以得到按行返回的数据,因为这两家接口返回的拼音、数字、符号基本全对,只需要对比每行的汉字差异,每页需要校对 6 - 12 个汉字,不会比校对词头难很多。
更新:百度高精度的识别率也很好,但是拼音声调漏了两处,价格是每页 4 分。
十个人就可以搞起,但凡中文语感尚佳,在校改过程中很少回查原书pdf相应条文片段,减少反复对看的频次,速率可以提高不少。还有一部书我觉得也很有数字化必要,就是白维国、江蓝生和汪维辉三先生主编的《近代汉语词典》,堪称《汉语大词典》之羽翼,对汉大述之不详不全的词义或者缺而不载的词目多有匡补。
需要先跑通流程,一个人就可以搞起了。