【筹划】汉语成语源流大辞典 修订版 文字版+精准图片版

紧凑版切栏图片(切图有:切页、切栏、切词之分)

特点:切掉正文四周、页中竖线、章节ABC
用处:进一步制作准确文字版的OCR;制作干净切词版对照。

下载地址Gofile - Cloud Storage Made Simple
缺点

  • 只处理了正文成语(共2124页,缺20页,在代码中),未处理其他(前言、索引、熟语……)。
  • 只测试了 1/100 的内容,可能有未知问题。
  • 为保持原文字的准确,未作降噪、二值处理。

切栏代码、源材料

  • main_hycyyldcd_a.py (6.7 KB)
  • easyocr 坐标 mdd_pickles.7z (18.8 MB)
  • 该代码的思路:每页检测所有x坐标值区间,取空白作为竖栏;取第二栏top-bottom切掉一三栏的页眉;以区间宽度筛掉页边字母;以区间高度筛掉正文中章节大写ABC。这20张未自动切掉,因为图片倾斜或者标点+竖栏识别为一行,导致没有空白没有分栏。或替换成楼上的图片,或根据自己的OCR再切,或手动切,或动态求区间maxMin时保留五组数据求差剔除异常值。