汉大2后续处理设想

sxingbai · 2021 年10 月 16 日 06:03

一路泥泞，终于开始对汉大音序进行ocr处理，效果差强人意，至少页码的识别率挺高。

然后抽取汉大2的词头与页码信息，与ocr结果进行近似度比对：
先进行页码完全比对，余留的进行高相似度比对，初步建立汉大2与ocr的对应数据；
然后再对每组数据的两边词头进行相似度比对，从高到低进行对应，用汉大2词头代替ocr词头；
最后处理注音。可先拿ocr的每个字音与25个字母及标注声调的字母进行相似度比对，用正常拼音替代那些ocr出来的奇怪字符，然后拿汉大2的字头注音处理ocr替换后的每个字的注音，单音字直接替换，多音字逐个比对，用近似度最高的字头音替换。
注音处理应该是个难点，音序目录没有把字与字的注音与空格分开，分割是个问题。也许把汉大的词头注音也合并起来比对会好一点儿。
如果一切顺利，结果就是一份升级版的音序目录，按页码排序就能和汉大2以及图像版构成对应关系。

okayer · 2021 年10 月 16 日 07:14

把圖片OCR了一下，結果可以參考。

百度OCR

feix肥息6-1193B
feixi匪席1-973A
feixi戲11-275B
feix廢熄3-1283A
feixiabiao飛霞驃12-707B
feixian飛仙12-692A
feixian飛僊12-704
feixian飛12-709B

誠華OCR

feixi 肥息 6-I193B
feixi 匪席 1-973A
feixi 誹戲 11-275B
feixi 廢熄 3-1283A
feixiabiao 飛霞驟 12-707B
feixian 飛仙 12-692A
feixian 飛倦 12-704 A
feixian 飛驚 12-709B

PDF Reader Pro OCR

feixi 肥息6-1193B
feixi 匪席1-973A
feixi 誹戲11-275B
feixi 廢熄3-1283A
feixiabiao 飛霞驃 12-707B
feixian 飛仙12-692A
feixian 飛倦12-704 A
feixian 飛騫12-709B

至於ABBYY，繁體中文效果太差了。

myfav · 2021 年10 月 16 日 08:12

印象中，以前下载过《漢語大詞典》12卷本及1卷附錄的清晰版PDF，2GB多一點兒，词头也見过人家用心編寫好的网页版查询系统，不需要今天自己再重新OCR吧？不过，我不太清楚它究竟是汉1或汉2，总之，查「匪席」就是P.973，查「飛仙」就是P.692。

……哦，原來是想排音序目录，難怪！感覺上，詞組首字的拼音在單字上已標註，第二字以下的，若有多音，會在釋義中標注，可惜掃描版無法自動提取。

sxingbai · 2021 年10 月 16 日 09:19

它也太强了，不知道有没有win版可用？
看来paddleocr还得训练，我是直接拿来就用。训练还得学习……

sxingbai · 2021 年10 月 16 日 09:45

网上找不到可用的win版，不知老兄能帮忙ocr吗？

okayer · 2021 年10 月 16 日 09:50

http://www.pc6.com/softview/SoftView_795912.html
官方下載： Free PDF Reader for Windows 10 - 7 Days Free Trial
你看可以下載使用嗎，如果不行的話，就傳上來吧。

sxingbai · 2021 年10 月 16 日 10:05

好的，多谢！我试试看。

sxingbai · 2021 年10 月 16 日 10:20

不行，都是试用版，只能转pdf。老兄的私信功能关闭了吗？

MeigenChou · 2021 年10 月 17 日 02:12

主要是这原图也不够清晰，可以委托此帖扫描

sxingbai · 2021 年10 月 17 日 04:45

多谢！图像是不太清，先试试看吧。

sxingbai · 2021 年10 月 17 日 12:00

还是低估了ocr数据处理的难度，想分音、形、页就很难。原以为页码会比较准确，再加上okayer侠相助，应该比较顺利。但无奈有些地方图像太不清楚，再好的ocr技术也无可奈何。

hahaya · 2021 年10 月 17 日 16:41

看来这个PDF Reader Pro OCR识别繁中还挺强的，不知识别简中和英文效果如何呢？对比其他像福昕、万兴等软件怎么样呢？

okayer · 2021 年10 月 18 日 00:57

我沒有這些軟件。一般場景下的簡體中文，百度OCR是真的厲害，恐怕更好的不多了。豎排、繁體中文目前我覺得PDF Reader Pro OCR是最好的。

hahaya · 2021 年10 月 18 日 03:37

您用的PDF Reader Pro OCR是Mac版还是Windows版呢？有没有Windows的破解版呢？可以分享您自己用的版本吗？百度OCR是用的什么软件呢？只是识别文字吗？能保留原来的排版吗？

okayer · 2021 年10 月 18 日 04:24

我用的mac版本是這裡下載的 https://www.zhinin.com/pdf_reader_pro-mac.html

百度ocr就直接按照官方說明調用API，排版我看默認縮進、留白、空格之類都去掉了，比如：

識別結果

王勃(649—676),字子安,绛州龙门(今山西河津市)人。年十四即及第,授朝
散郎,为沛王府修撰,因戏作檄英王鸡文被高宗逐出,乃客蜀中。为虢州参军时又
犯死罪,遇赦革职。父福畤因受累而谪迁交趾令,勃前往省亲,渡海溺水,惊悸而死。
他是初唐四杰之一,才气最高。相传作文先具“腹稿”,文不加点,也善为骈文,
名作有《滕王阁序》,承六朝藻饰之风而特为雄放,也象征当时政局正处于上升时期。
其诗以“高华”著称,内容较六朝宫体诗扩大,音调的婉转变化,则又吸取乐府之长
(如《采莲曲》)。也由于四杰的努力,诗风已有所改变,于五律的格律逐渐树立,故使
杜甫有“不废江河万古流”之称。明陆时雍在《诗镜总论》中说:“调入初唐,时带六
朝锦色。”这也是说得很公允的。要

可能要腳本進一步修改才行。

hahaya · 2021 年10 月 18 日 04:25

感谢回复，了解了！！

sxingbai · 2021 年10 月 18 日 04:55

百度api有调用次数限制，高精度带位置版一月500次，不带位置1000次，轻度使用够了。
paddleocr是百度的开源项目，https://www.paddlepaddle.org.cn/hubdetail?name=chinese_ocr_db_crnn_server&en_category=TextRecognition，训练后应该识别更好

hahaya · 2021 年10 月 18 日 05:04

paddleocr有限制吗？

okayer · 2021 年10 月 18 日 05:40

paddleocr默認識別比其他開源的都要好，但字稍微生僻一點就不太行。老兄後面要是有了心得，把怎麼訓練、使用paddleocr和大家分享下啊

W2K · 2021 年10 月 18 日 06:05

百度的后期用很累，量少了还凑活。