预处理是文本识别里最重要的一环。词典 ocr 第一步就要做版面拆分双栏变单栏,然后单栏合并成一页再去识别,有妨碍识别效果的文本需要用白色贴条先挡掉,比如顶部和侧边的页码,日文的话也类似,需要先把注音假名用白色贴掉。
如何分栏拆分和贴条直接问 ai 就行了,现在都很简单了。
预处理是文本识别里最重要的一环。词典 ocr 第一步就要做版面拆分双栏变单栏,然后单栏合并成一页再去识别,有妨碍识别效果的文本需要用白色贴条先挡掉,比如顶部和侧边的页码,日文的话也类似,需要先把注音假名用白色贴掉。
如何分栏拆分和贴条直接问 ai 就行了,现在都很简单了。