【筹划】汉语成语源流大辞典 修订版 文字版+精准图片版

对。图像的处理中,清晰度和准确度不可兼得。我倾向于准确性和源头性,故不做额外改动保留原版,各位可以自由选择加工喜欢的。

想要兼得只能用文字版 :smiley:

TextIn Tools 免费古籍识别(OCR)工具

这个在线网页版的合合 OCR 目前手动上传图片,没试到上限次数。大概应该跟破解版的合合全能扫描王的上限是100次、或200次一样。

多个单栏纵向合并到10M + pyautogui + selenium + browsermob-proxy。大概 9张单栏合一张,即原 pdf 3页,这样算大概 700 次,需要3~6天,有兴趣的可以做,可以和楼主的百度版作对比。

注意这个免费版没有自动拼行,需要自己判断 json 的行宽、起始位置,拼行为一段或加回车。

这个合合免费工具好像无法识别分栏

是的,版面需要自己切下图,或者用上面别人切好的。

上面的文字版《汉语成语源流大辞典》是用的百度OCR高精度识别的,个别汉字可能识别不太精准。如果有人有合合OCR的两个key的话,我可以重新用合合跑一遍(不用分栏,节省OCR费用,大约106元)

建议还是选用分栏切分加工后的文档为好,不同栏内容窜乱后续纠正太费力气了。我有年费会员账号,不过扫描王网页端、PC端OCR效率实在感人,光是切分页面分批次“投喂”扫描就得耗费不好时间,如果你可以实现自动化操作可以节省很大一部分时间。我花费两个晚上尝试核校扫描文本,进度的话一个晚上大概7页左右。文字排误倒不是最大的问题,最大的难点在于把编者通过空白符区隔的附注信息、同书句例、相对于出典的后出句例拎出来。白描在空白符的识别上优于扫描王,但也有很多缺漏错误识别情况。

分栏后 106 * 3 = 318 元。

分栏后再纵向拼接啊,像素不知道有限制吗,我只看到大小限制在10M。

原图保持 dpi 不变的话只能拼两栏,图像宽高须介于 20 和 10000(像素)之间。我的意思是使用合合的接口,JSON 获取到的行坐标已经是分好栏的了,不需要切图分栏。

恩,前面有人提到过百度分栏不准的情况,不知道合合表现怎么样。

具体哪个地方分栏不准都可以定位到。百度OCR处理分栏不准的地方没超过5处,合合估计也差不多

现在主要不是钱的问题,是人的问题。除非发起百人合校,不然仅仅是初步扫描而得的文本利用率、置信度肯定不高,终归是一件“瑕疵品”。但是依人的常理心推想,这种耗时费力不讨巧的活除了我这种“痴人”之外,只怕很难有人可以揽接,就有怕也只有那么八九个通道。做这个合校工程,好比一叶扁舟行于汪汪灏灏的大洋上,成功难期 :joy:

论坛几乎所有词典开始都是瑕疵品,没必要纠结这些,发现错误订正就行了,不会修汇总一起反馈给作者也行,你不动手我不动手永远都是瑕疵品,论坛上很多精品词典至今都有人在修订。

有那没那种云端在线合作核校平台,可以发起滚动式校对订正的,可以追踪修改轨迹、图文同界面比照、自动标定差异字符等等

不知道,应该没有,也不太可能有。

mdx已分享,大家可以看看识别效果如何

7 个赞

感谢楼主分享。这个ocr文字版和楼主的图像版正好搭配,方便校对。

太厉害了!用什么工具做的?我估计我用finereader怎样也无法做到这个程度。

粗略看了一下,似乎只是偶尔会漏掉某个难字。

【秕糠爵禄】bǐ kāng jué lù 把爵位俸禄看作秕子米糠一样没有多大价值。 秕糠也写作“穅”。
[校记]秕糠也写作“粃穅”。

有些标点符号错误可以批量替换。
···

现在还没有跳转。精校过词头后,主词头下的亚词头也许可以做跳转。

我很有兴趣整理一下这个词典——绝对重量级啊。整理后功力会大进。

但是现在手头有一本大型汉英词典,暂时腾不出手来集中精神做。

先收下楼主的大作,得空再看能不能整理。拜谢!

百度高精度含位置API
Python+正则
MdxSourceBuilder

1 个赞

一、缺字
1.【哀感顽艳】清·徐《词苑丛谈→清·徐釚《词苑丛谈
2.【哀鸿遍野】 鸿雁于飞,哀鸣。(áo):→鸿雁于飞,哀鸣嗸嗸。嗸(áo):
3.【哀毁骨立】 以情钟陟→以情钟陟屺
4.【挨门逐户】 流民斛科→流民斛㪷科
5.【爱而不见】① 爱:通“”,隐蔽;又一说通“”→爱:通“𫉁”,隐蔽;又一说通“𫣊” ;②爱而不见,忧心有。点校本《宋琬全集》“”讹作“冲”。→爱而不见,忧心有忡。点校本《宋琬全集》“忡”讹作“冲”。
6.【忧心忡忡】 未见君子,忧心忡。→未见君子,忧心忡忡; 忧心,待旦而入→忧心忡忡,待旦而入; 卧病荒江上,忧心何?→卧病荒江上,忧心何忡忡?
7.【刻不容缓】 李天根《火录·→李天根《爝火录·
8.【安步当车】 头为枕草为毡→𬬺头为枕草为毡
9.【安车蒲轮】 乃备元安车以聘之→乃备元𫄸安车以聘之元
10.【安车蒲轮】筐将诚,玉帛为媒。→筐篚将诚,玉帛为媒。
11.【安堵如故】为(魏)光等所误者原之→为(麹)光等 诖 误者原之
12.【安堵如故】医药、卜筮、琴、刻篆无所不通→医药、卜筮、斵琴、刻篆无所不通
13.【鞍马劳顿】亲御马。:同“鞍”。→亲御鞌马。:鞌同“鞍”。
14.【唉声叹气】输来时,跌脚槌 (疑作“”)胸,呀声叹气→输来时,跌脚槌 (疑作“搥”)胸,呀声叹气
15.【唉声叹气】又作[声叹气],(hài):叹词。→又作[嗐声叹气],嗐(hài):叹词。
16.【见忾闻】隐隐约约地看见其形,又听到叹息的声音。:仿佛。忾:气满。…后来用[见忾闻],表示活灵活现。→【𫣊见忾闻】隐隐约约地看见其形,又听到叹息的声音。𫣊:仿佛。忾:气满。…后来用[𫣊见忾闻],表示活灵活现。
二、OCR识别错误
箭头后为正字
1.哀→裒
【挨肩擦背】 范哀生诗集→范裒生诗集
2.慑慑→惙辍
【忧心忡忡】 又作忧心慑慑,惙(chuò-)→又作忧心惙惙,惙(chuò-)
3.严→俨
【爱河欲海】 唐·李严《法苑珠林序》→唐·李俨《法苑珠林序》
4.杭→枋
【爱莫能助】【触类生趣】 宋·阳杭《字溪集→宋·阳枋《字溪集 (5处)
5.爽→奭
【安常处顺】夫人兄中书令柳爽→夫人兄中书令柳奭
6.顿→輭
【安车蒲轮】安车顿轮,供绥执授。顿:同“软”→安车輭轮,供绥执授。輭:同“软”
7.增→缯
【安刘周勃】贩增织畚之伍 →贩缯织畚之伍
8.纤→纡
【按辔徐行】委纤盘曲→委纡盘曲
9.魏→麹
【安堵如故】为(魏)光等所误者原之→为(麹)光等所诖误者原之
10.杆→杅
【安于覆盂】ān yú fù yú 原或作[晏如覆杅],如同倒置的盂一样安稳,不致倾覆动荡。晏:安定;安宁。也作“宴”。杅同 “盂”。

3 个赞

老兄假如有兴趣长期校对,建议在“词典及语言学习”另开一新帖,新帖开头链接回这个词典。

长期校对的帖子会拉得很长,不适合放在词典底下,那样会很难阅读。

1 个赞