單詞音節詞頭的 OCR 取出與處理方法

這是一個難解的問題,因就目前已知的方法與方式很難在處理的過程令人滿意,盼各位先進提供看法與方案加以深入探討
英文單詞因音節點或有的有重輕音標號,這往往導至OCR無法正确辨識,不知各位技術先進有何良方可克服此囧狀況
克服的途徑應該是很多,無非是把詞頭依續切下 OCR 但因音節問題依然…目前所見除一一校對或配對外並無任何突破性的進展…盼各方先進暢其所言不吝指教

准确率很差,但是你愿意请人做模型也是可以有办法的。准确率我不敢说,因为那个小东西,受扫描质量影响太大。

也许,多人校对就是经济且便捷的方法了。you know, 人工智能。

1 Like

是的,準確率確實受ocr的辨識率影嚮很大,但龐大校對時間的消秏不是解決方法…AI…或許是解題策略之一吧

用隔壁那个帖子里面提到的opencv就能搞定。
附件是一个例子,只拿来处理词头的话,感觉够用了。
Template.png是要去除的图片内容,New folder里面放要处理的图片。
代码里面的, threshold = .85 可以设置相似度。
处理前:

处理后,

test.rar (147.8 KB)

2 Likes

哇!,厲害了,謝謝指引,所以是以opencv尋找那個節點後再抹去它…謝謝你,我看得好好學學python

这有个小问题是,被替换的地方,ocr可能会得到额外的空格。

是的,這是當然的,問題還是在於比較片面沒有整体的整合…實在有點可惜

说个与空格相关但是与楼主主题不相关的:机器拆分含有括号的词头,也会出现空格,出现空格的词头,需要删除,否则会严重影响搜索结果,有时还让人误以为查不到那个单词,大家可以重点关注21世纪英汉大词典mdx中需要拆分的词头(注意21mdx的版本请选从以前有道手机版提取的21mdx,绝大多数从有道官网抓的数据,词头大缩水,特别是那些需要拆分的词头)

不过现在有道无论官网还是手机版都下架21世纪英汉大词典,目前只能从21世纪英汉大词典PDF入手了,把PDF上的内容补到21文字版mdx

这个代码还有改进空间。
代码里面有对应替换空白的位置坐标,再稍加处理,应该可以避免空格问题。
期待论坛的那些python大佬完善了。

謝謝指引,因還有很多想法,或許探討中會找到更好的答案

你有啥想法,说嘛 :yum:


目前詞頭的判斷還是有點匱乏,其實也不一定要從前面凸出和縮進做為判斷詞頭位置,如圖,從後面做為判斷下一行為詞頭也不差呀!,尤其是沒凸或凹的特徵
一個想法,若是能設計一個可移動如圖面黃色框框,而這黃色框框你可以擺在 x 的任何位置,且可以自定長度和寬度(此可以閃一些插圖位置和區域)
然后以那黃色區域由上往下掃,且篩選條件可自定,如此可能更佳彈性點

这样的我试过了,我这的问题是


两个或两个以上的单词作词头,只能前面的第一个OCR出来。
像中间的音节符号小点可以弄下去还没有空格。
正确率和OCR其它没有点点的差不多吧,原图越好正确率越高,要不我咋说要是弄的话没词头表的话就一定先有好的图,OCR正确率不高全靠手撸工作量真的太大了。

1 Like


個人的想法是,如圖這樣可以移動的黃色方框
反正前面的一開始的 x,y 座標一定會有的,重點只是找出可能的詞頭在哪一列,重點也不一定要擺在前面,或許中間後面都是有可能的

说实话,齐头和缩进去的的这样词头我试了好多,现有的方法可以搞定。也看了百科那边@chigre弄的汉语大字典整理词头画线的gif动图。他似乎还是迷信python,我不懂那些东西,但就目前我们可以使用的软件一样可以弄出来,找词头的准确率我还很满意。

我不很清楚您如何弄出來的,但 Chigre 兄的處理應該是有一定的道理,比如有大字的部分 OCR大都是亂碼

大小字分着弄
我真的试过


我再回去下载就取消分享了,我当时也是顺手下的。
就当一种特殊情况实验用了。


你說的那樣的大小字OCR是可以分辨出來的,若是新時代漢英則大字會有很多是亂碼

1 Like

怪我没说明白,手机编辑不是那么方便。
你不是参与过@chigre的校对会用他的那个软件么,本论坛也有详细使用的方法(但几乎没人看),把大字的前面划线时给个特殊符号(我填了个+号),正则拿出来单独切出来。画线后面会有整頁词的排序序号,顺序也不会乱。大的字头ocr后再放回去。
这样FineReader也不用弄那么多,虽然步骤多了,但ocr的时间要快不少,甚至你就在@chigre的软件里ocr一样。
你试试就知道了。

对了,像你举得这个例子图这样的等我告诉你咋弄了我想你会哭出来,我上面说的方法都不用,一下设置就完事了。
因为我当时也经历了狗咬尾巴尖的过程。
哈哈哈