單詞音節詞頭的 OCR 取出與處理方法

fruition · 2021 年4 月 8 日 04:17

這是一個難解的問題，因就目前已知的方法與方式很難在處理的過程令人滿意，盼各位先進提供看法與方案加以深入探討
英文單詞因音節點或有的有重輕音標號，這往往導至OCR無法正确辨識，不知各位技術先進有何良方可克服此囧狀況
克服的途徑應該是很多，無非是把詞頭依續切下 OCR 但因音節問題依然…目前所見除一一校對或配對外並無任何突破性的進展…盼各方先進暢其所言不吝指教

hua · 2021 年4 月 8 日 05:08

准确率很差，但是你愿意请人做模型也是可以有办法的。准确率我不敢说，因为那个小东西，受扫描质量影响太大。

也许，多人校对就是经济且便捷的方法了。you know, 人工智能。

fruition · 2021 年4 月 8 日 05:59

是的，準確率確實受ocr的辨識率影嚮很大，但龐大校對時間的消秏不是解決方法…AI…或許是解題策略之一吧

linbai · 2021 年4 月 8 日 07:23

用隔壁那个帖子里面提到的opencv就能搞定。
附件是一个例子，只拿来处理词头的话，感觉够用了。
Template.png是要去除的图片内容，New folder里面放要处理的图片。
代码里面的， threshold = .85 可以设置相似度。
处理前：

处理后，

test.rar (147.8 KB)

fruition · 2021 年4 月 8 日 07:32

哇！，厲害了，謝謝指引，所以是以opencv尋找那個節點後再抹去它…謝謝你，我看得好好學學python

linbai · 2021 年4 月 8 日 07:34

这有个小问题是，被替换的地方，ocr可能会得到额外的空格。

fruition · 2021 年4 月 8 日 07:36

是的，這是當然的，問題還是在於比較片面沒有整体的整合…實在有點可惜

free · 2021 年4 月 8 日 08:47

说个与空格相关但是与楼主主题不相关的：机器拆分含有括号的词头，也会出现空格，出现空格的词头，需要删除，否则会严重影响搜索结果，有时还让人误以为查不到那个单词，大家可以重点关注21世纪英汉大词典mdx中需要拆分的词头(注意21mdx的版本请选从以前有道手机版提取的21mdx，绝大多数从有道官网抓的数据，词头大缩水，特别是那些需要拆分的词头)

不过现在有道无论官网还是手机版都下架21世纪英汉大词典，目前只能从21世纪英汉大词典PDF入手了，把PDF上的内容补到21文字版mdx

linbai · 2021 年4 月 8 日 09:27

这个代码还有改进空间。
代码里面有对应替换空白的位置坐标，再稍加处理，应该可以避免空格问题。
期待论坛的那些python大佬完善了。

fruition · 2021 年4 月 9 日 05:36

謝謝指引，因還有很多想法，或許探討中會找到更好的答案

W2K · 2021 年4 月 9 日 06:01

你有啥想法，说嘛

fruition · 2021 年4 月 9 日 07:56

目前詞頭的判斷還是有點匱乏，其實也不一定要從前面凸出和縮進做為判斷詞頭位置，如圖，從後面做為判斷下一行為詞頭也不差呀！，尤其是沒凸或凹的特徵
一個想法，若是能設計一個可移動如圖面黃色框框，而這黃色框框你可以擺在 x 的任何位置，且可以自定長度和寬度(此可以閃一些插圖位置和區域)
然后以那黃色區域由上往下掃，且篩選條件可自定，如此可能更佳彈性點

W2K · 2021 年4 月 9 日 08:09

这样的我试过了，我这的问题是

两个或两个以上的单词作词头，只能前面的第一个OCR出来。
像中间的音节符号小点可以弄下去还没有空格。
正确率和OCR其它没有点点的差不多吧，原图越好正确率越高，要不我咋说要是弄的话没词头表的话就一定先有好的图，OCR正确率不高全靠手撸工作量真的太大了。

fruition · 2021 年4 月 9 日 08:15

個人的想法是，如圖這樣可以移動的黃色方框
反正前面的一開始的 x,y 座標一定會有的，重點只是找出可能的詞頭在哪一列，重點也不一定要擺在前面，或許中間後面都是有可能的

W2K · 2021 年4 月 9 日 08:16

说实话，齐头和缩进去的的这样词头我试了好多，现有的方法可以搞定。也看了百科那边@chigre弄的汉语大字典整理词头画线的gif动图。他似乎还是迷信python，我不懂那些东西，但就目前我们可以使用的软件一样可以弄出来，找词头的准确率我还很满意。

fruition · 2021 年4 月 9 日 08:20

我不很清楚您如何弄出來的，但 Chigre 兄的處理應該是有一定的道理，比如有大字的部分 OCR大都是亂碼

W2K · 2021 年4 月 9 日 08:23

大小字分着弄
我真的试过

我再回去下载就取消分享了，我当时也是顺手下的。
就当一种特殊情况实验用了。

fruition · 2021 年4 月 9 日 08:28

你說的那樣的大小字OCR是可以分辨出來的,若是新時代漢英則大字會有很多是亂碼

W2K · 2021 年4 月 9 日 08:36

怪我没说明白，手机编辑不是那么方便。
你不是参与过@chigre的校对会用他的那个软件么，本论坛也有详细使用的方法（但几乎没人看），把大字的前面划线时给个特殊符号（我填了个+号），正则拿出来单独切出来。画线后面会有整頁词的排序序号，顺序也不会乱。大的字头ocr后再放回去。
这样FineReader也不用弄那么多，虽然步骤多了，但ocr的时间要快不少，甚至你就在@chigre的软件里ocr一样。
你试试就知道了。

W2K · 2021 年4 月 9 日 08:40

对了，像你举得这个例子图这样的等我告诉你咋弄了我想你会哭出来，我上面说的方法都不用，一下设置就完事了。
因为我当时也经历了狗咬尾巴尖的过程。
哈哈哈