單詞音節詞頭的 OCR 取出與處理方法

您若有注意到其中某個單詞是有 | 但卻沒被辨識為 I 那我想應該是和我想的那個方法差不多吧!…化整為零後再化零為整…

真令人嘆為觀止呀!…中文也行…厲害了…AI 時代真的來臨了…,…豬羊變色的時刻到來了…
人家已經上太空,我們還在殺豬公…

@linbai @W2K @IBHI
6om2DQuz5Rxth9i

1 个赞

看你做了那个cod6,你是要每个词头在y的像素值么?

我感觉vim的那个词典软件只要加上python的划线(百科那边有python划线的例子),词头坐标就都有了,那真的是想怎么弄都可以了,剩下的就是想象空间的事了。

仁兄說的極是, 只是想嘗試不同的處理法,順便想借由統計反推母體驗証此法是否可行,看看效果如何
劃線屬正規操作,但對於 OCR 的校對實秏太多精神與體力,且要求的條件也高些,校對過程中也較為單調無趣,無法感受過程中所帶來的快樂

可是想想校对还是有个图形软件框架要比对着文本肉搏要好得多,要不然体力时间消耗太严重。
现在各平台的图片识别发展很快,你可以试试,薅羊毛去不要犹豫。

我上面回复你的有误,你有词头坐标可以进chigre的软件校对,过不去的地方就把单栏的栏距往小改

W2K 兄,謝謝啦!,對於校對真是太令人敬謝不敏了…希望 Chigre 的軟件能再改的容易上手一點…
這若能順手確實比光看文本肉搏好太多了,至少還有些新鮮感和成就感,上不了手…令人望洋興嘆…哈!哈哈哈

近来好图放出来不少
要是做我可以给你OCR词头
你要用的数据都要啥我都给你倒出来
你也比较下和以往的做法差别

W2K兄,謝謝啦!感覺最近對辭典有點退燒…

和尚,看看这个校对工具,有眼缘吗?左一是图片,中间右一是云OCR 结果,红绿色块是文本差异,两边内容都可以直接编辑,任一行按TAB 键,直接同步另一行内容,消除两边差异,跳到下一行,校对完成,CTRL+S 保存文本。

2 个赞

last_idol 兄,這個就厲害了,但是詞頭有音節的應該是不好處理吧,這樣的內容不用雲OCR , ABBYY 準確率也會很高吧

ABBYY 内置的检查器,能把图片行和文本行放一起校对(有时间把这实现抄抄),对复杂文本非常好用,但是单一的 OCR 会有概率放过错误的内容,这种情况挺多的。两个云OCR一起来,一是不容易同时出错,二是校对会方便很多,只要有一行是正确的,直接使用正确的行内容就行,不用自己再次编辑。

音节是可以识别删掉的,自动的应该没有。

1 个赞

如果多来几个云 OCR,复杂文本校对应该很省事。第一行显示原始图片行,二三四五行显示云 OCR 的文本行。直接 TAB 选择正确行,然后跳下一行继续。更进一步使用多个云 OCR 的结果互相校对,配合高频词表,大多数需要人眼校对的文本行,应该可以直接跳过。

1 个赞

last_idol 兄,謝謝指引,在下相信,以目前的 OCR 技術一定能達到某個層次的精確度,對於制作校對依然是花費許多時間和精力處理,幾經考量和權衡利弊之下,傾向索引,縱然索引不全或粗略,但不用校對,目前的考量,傾向於學一些工具和呈現方式,利用其它方法來補足此缺陷,全然的去死磕如此單調的校對也非原本的規划

1 个赞

W2K 兄,我也沒有正確的字表,隨便估一估也能搞定,你認為真有必要做那麼準嗎?哈,哈哈哈!

我倒觉得一年就弄一两本的话词头都校对一遍也没啥,之所以喜欢图片词典就是除了这个找的词还可以前后看看离这个词近的有些啥别的词,和电子文件的词典在体会上不一样,感觉图片词典还是有电子版不可替代的优点,要是就整页不切词整页词头高亮也很好啊,你现在这么弄我理解的是用页眉的词头分的大词表对位得来的(猜的)。这样要是找个全的词表也遗漏不下啥词,只多不会少(上面的词表里的词头应该多余下面图片里的词头),就像我们最开始查字典一样先翻到大体位置再查要找的词一样。对了,你们怎么不弄个自适应分栏,那样的话手机上也可以体验下(整页的相对于移动端看着还是费点劲)。我倒觉得只要能查到要找的快速定位方法无所谓,也就是可用性越简单越方便才是最终的方向。不是弄了多少本,攒了多少别人没有的词典,用,好用才是我的目的。

W2K 兄,詞頭不遺漏是不太可能,但可能也會多出一些不是詞頭而也在詞典內的衍生詞,這是匹配必然的結果,有扣分但也有加分,除非剛好有正確的字表詞頭,只是不要差太多就好,自適應分欄…這個我不會…,主要是不用校對,不想搞的那麼辛苦…不是語言學家,隨便差不多就 OK 了!

1 个赞

我最开始想的省力的法子是像查词典一样就给有查词词表后面页码给跳转,就像我们最早查词典那样用,和别人说过但没实践过,有的词典也没有那个查词带页码。要是有就直接弄出它就行,想想要是和你这个结合下应该可行(有查词带页码的词典),就回到我们查词典的方式,再加上你的这个区域提示。

但要出正确的字表我想你这样的一天校对3-5百应该问题不大,其余的机器都替你弄完有一套和这本词典对应的也不错吗?要不你这样的战士都退坑了你让等你大作的我们还怎么玩啊?少做些,就当娱乐了。

W2K 兄,哈!哈哈哈,在下不是戰士,和大家一樣,也是等瓜吃啦!哈!哈!哈!

W2K 兄,在下最近一直思考一個問題,到底自動化重要還是參數化重要…