词典类图书PDF文档版面自动分析、加工的初步探索

预处理是文本识别里最重要的一环。词典 ocr 第一步就要做版面拆分双栏变单栏,然后单栏合并成一页再去识别,有妨碍识别效果的文本需要用白色贴条先挡掉,比如顶部和侧边的页码,日文的话也类似,需要先把注音假名用白色贴掉。

如何分栏拆分和贴条直接问 ai 就行了,现在都很简单了。