里面你甚至混入了日语字体,我不知道说啥了。。。
我想问问,以这张图为例,你认为第一列的哪些字形是错误的,训练时需要排除?麻烦你说说看?
OCR识别模型关注的重点是这一堆像素点排列组合对应一个具体文字的概率,通常也只对参与训练过的文字字形识别正确率高,没参与过的就低。至于这个文字是英文字母、数字、emoji表情、简体字、繁体字、异体字,或是这个文字是宋体、楷体、隶书、甲骨文什么的它完全不关心,这是人赋予的语义符号。以15楼那些错误文字为例,标注为错误文字后,下次合成训练数据时忽略这些文字,训练模型的时候模型没见过这个错误对应关系,将它们对应起来的概率就低。通俗来说,训练模型就像学生学认字,看正确字形次数越多,下次看到差不多样子的文字正确认出来的概率就越高。
以一楼的截图第一列为例,如果将它标注为对应 漑 是正确的, 对应 溉 是错的,合成训练数据时就不会合成它与 溉 的对应关系图像,只会合成它与 漑 对应关系的图像。训练模型的时候模型只看到它与 漑 的对应关系,下次识别的时候将它识别为 漑 概率就高。
谎言说一千遍就成真,这个笑话应用到模型训练就很合适
小軟件不錯,能分享一下嗎?感恩
我说的是这个图,你觉得哪一行的字形是写错了的?你说哪几行就行了。
1、4标正确,2、3、5、6、7、8、9标错误
1 Like