汉大2后续处理设想

一路泥泞,终于开始对汉大音序进行ocr处理,效果差强人意,至少页码的识别率挺高。


图片
然后抽取汉大2的词头与页码信息,与ocr结果进行近似度比对:
先进行页码完全比对,余留的进行高相似度比对,初步建立汉大2与ocr的对应数据;
然后再对每组数据的两边词头进行相似度比对,从高到低进行对应,用汉大2词头代替ocr词头;
最后处理注音。可先拿ocr的每个字音与25个字母及标注声调的字母进行相似度比对,用正常拼音替代那些ocr出来的奇怪字符,然后拿汉大2的字头注音处理ocr替换后的每个字的注音,单音字直接替换,多音字逐个比对,用近似度最高的字头音替换。
注音处理应该是个难点,音序目录没有把字与字的注音与空格分开,分割是个问题。也许把汉大的词头注音也合并起来比对会好一点儿。
如果一切顺利,结果就是一份升级版的音序目录,按页码排序就能和汉大2以及图像版构成对应关系。

1 个赞

把圖片OCR了一下,結果可以參考。

百度OCR

feix肥息6-1193B
feixi匪席1-973A
feixi戲11-275B
feix廢熄3-1283A
feixiabiao飛霞驃12-707B
feixian飛仙12-692A
feixian飛僊12-704
feixian飛12-709B

誠華OCR

feixi 肥息 6-I193B
feixi 匪席 1-973A
feixi 誹戲 11-275B
feixi 廢熄 3-1283A
feixiabiao 飛霞驟 12-707B
feixian 飛仙 12-692A
feixian 飛倦 12-704 A
feixian 飛驚 12-709B

PDF Reader Pro OCR

feixi 肥息6-1193B
feixi 匪席1-973A
feixi 誹戲11-275B
feixi 廢熄3-1283A
feixiabiao 飛霞驃 12-707B
feixian 飛仙12-692A
feixian 飛倦12-704 A
feixian 飛騫12-709B

至於ABBYY,繁體中文效果太差了。

1 个赞

印象中,以前下载过《漢語大詞典》12卷本及1卷附錄的清晰版PDF,2GB多一點兒,词头也見过人家用心編寫好的网页版查询系统,不需要今天自己再重新OCR吧?不过,我不太清楚它究竟是汉1或汉2,总之,查「匪席」就是P.973,查「飛仙」就是P.692。

……哦,原來是想排音序目录,難怪!感覺上,詞組首字的拼音在單字上已標註,第二字以下的,若有多音,會在釋義中標注,可惜掃描版無法自動提取。

它也太强了,不知道有没有win版可用?
看来paddleocr还得训练,我是直接拿来就用。训练还得学习……

网上找不到可用的win版,不知老兄能帮忙ocr吗?

1 个赞

http://www.pc6.com/softview/SoftView_795912.html
官方下載: Free PDF Reader for Windows 10 - 7 Days Free Trial
你看可以下載使用嗎,如果不行的話,就傳上來吧。

1 个赞

好的,多谢!我试试看。

不行,都是试用版,只能转pdf。老兄的私信功能关闭了吗?

主要是这原图也不够清晰,可以委托此帖扫描

多谢!图像是不太清,先试试看吧。

还是低估了ocr数据处理的难度,想分音、形、页就很难。原以为页码会比较准确,再加上okayer侠相助,应该比较顺利。但无奈有些地方图像太不清楚,再好的ocr技术也无可奈何。
图片

2 个赞

看来这个PDF Reader Pro OCR识别繁中还挺强的,不知识别简中和英文效果如何呢?对比其他像福昕、万兴等软件怎么样呢?

我沒有這些軟件。一般場景下的簡體中文,百度OCR是真的厲害,恐怕更好的不多了。豎排、繁體中文目前我覺得PDF Reader Pro OCR是最好的。

3 个赞

您用的PDF Reader Pro OCR是Mac版还是Windows版呢?有没有Windows的破解版呢?可以分享您自己用的版本吗?百度OCR是用的什么软件呢?只是识别文字吗?能保留原来的排版吗?

我用的mac版本是這裡下載的 https://www.zhinin.com/pdf_reader_pro-mac.html

百度ocr就直接按照官方說明調用API,排版我看默認縮進、留白、空格之類都去掉了,比如:

識別結果

王勃(649—676),字子安,绛州龙门(今山西河津市)人。年十四即及第,授朝
散郎,为沛王府修撰,因戏作檄英王鸡文被高宗逐出,乃客蜀中。为虢州参军时又
犯死罪,遇赦革职。父福畤因受累而谪迁交趾令,勃前往省亲,渡海溺水,惊悸而死。
他是初唐四杰之一,才气最高。相传作文先具“腹稿”,文不加点,也善为骈文,
名作有《滕王阁序》,承六朝藻饰之风而特为雄放,也象征当时政局正处于上升时期。
其诗以“高华”著称,内容较六朝宫体诗扩大,音调的婉转变化,则又吸取乐府之长
(如《采莲曲》)。也由于四杰的努力,诗风已有所改变,于五律的格律逐渐树立,故使
杜甫有“不废江河万古流”之称。明陆时雍在《诗镜总论》中说:“调入初唐,时带六
朝锦色。”这也是说得很公允的。要

可能要腳本進一步修改才行。

感谢回复,了解了!!

百度api有调用次数限制,高精度带位置版一月500次,不带位置1000次,轻度使用够了。
paddleocr是百度的开源项目,https://www.paddlepaddle.org.cn/hubdetail?name=chinese_ocr_db_crnn_server&en_category=TextRecognition,训练后应该识别更好

paddleocr有限制吗?

paddleocr默認識別比其他開源的都要好,但字稍微生僻一點就不太行。老兄後面要是有了心得,把怎麼訓練、使用paddleocr和大家分享下啊

百度的后期用很累,量少了还凑活。