請求ocr 26頁的中文索引,我提供字單

26-page index.pdf (3.6 MB)

請求高手OCR一件26頁的中文PDF,是中華書局《章太炎說文解字授課筆記》的字頭索引。理論上,索引限制於這4002字:
custom dic 1- 4002.txt (16.0 KB)

應當用不上,但也有9000字的字單。
custom dic 2 - 9880.txt (97.5 KB)

我想做個圖像板mdx,但對中文OCR不熟悉。用過Acrobat Professional,但錯誤多。試用了ABBYY,但user dictionary功能有限,不能超越中日韓的基本區字。

多欄的一定要先裁切成單列,圖片處理銳化後,再識別。現在的識別軟件大多只支持常用字,至於生僻字,所有的軟件都處理不好,這是沒辦法的事情。得人工核對錄入。

背景归一,分辨率归一,重采样+边缘锐化,减色。
处理后切成单列,
然后试试阿里巴巴达摩院的文字识别
新闻说“ [技术让古籍数字化回归: AI识别 20万页古籍 准确率达97.5 …”

@dictionaryfan

阿里巴巴达摩院的文字识别

是下面这一个吗?

读光通用识别系列
读光通用文档类OCR识别产品,可将各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原。为了能够更好的还原文字信息和文档结构,读光文档识别在通用全文识别能力(文字定位、行分析、文字识别)的基础上,增加了文档结构的版面分析和文档图像处理能力,使得文档类图像也能按照结构化的方式进行文档元素提取,进一步提升文档识别的产品体验。
0元购买
https://duguang.aliyun.com/experience?type=universal&subtype=general#intro

建議集成北師大的文字版,做成圖文版本。

Index of /尚未整理/集合/书生意气/美学及文艺学辞典/ 提取了字頭,雖然明顯經過校對,但仍有錯誤。此外又匹配了4002字頭的文本,供參考。

4002.txt (36.4 KB)
zty.txt (38.0 KB)

配套MDD:Index of /尚未整理/06mdict/章太炎說文觧字授課筆記/

貌似是的,可以试试
好用记得说一下

页数不多的,可以用网络图片识别
识别率不错的 在线文字识别转换 - 免费图片转文字工具OCR (wdku.net)
每天可以免费5-6页,不必充值

裁成单列后可以4-5页图片合并为一页,节约免费次数

@dictionaryfan
呵呵,看了一下,本来以为这个可能比百度的ocr容易用,一看又是什么接口,需要代码的。这个大概只有sxingbai兄有兴趣玩。

@sxingbai
你有兴趣试一下阿里巴巴达摩院的文字识别吗?看这个是否比百度ocr厉害?

看了一下,调用不复杂,坛里大神多了去,我只是小虾米。但一分钱只有500次,并且不能重复申请,实际只是试用,5000次840元的价格也够高的,还不如百度实惠。用飞桨就是因为它免费并且识别率也不错。

1 个赞

謝謝大家的回應。沒想到PC軟件方面還那麼落後,只能處理常用字。AABBY的繁體中文字單只有兩萬字,看數量,猜測是康熙字典的字頭。在AABBY界面試圖用"regular expression"添加字,做不成。看來AABBY只能識別那兩萬字。

下次再試用阿里巴巴达摩院。OCR最適合讓 cloud AI 跟 big data 去處理;在 PC 用 user dictionary 還是較死板的方式。

@ 匿名1139
謝謝抽出字頭-頁碼,我從這裡開始校對。
比我想像的麻煩,有幾百字重出在“部首”和“單字”兩部分;北師大網頁把兩方的字條合併了。
北師大數據已經格式化、灌進去了,只需要跟頁碼連在一起。

1 个赞