这个词典,文本扫描的很清晰,但图片处理的很有意思。
看这个,这种线条轮廓图二值化之后很清晰:
但看这个,静物画,肖像画还能看出来,风景画也还勉强,这抽象画可就真抽象了:
在PDF书中,有灰阶层次的照片是不宜二值化的。
还有,这些“原图”似乎是二值化之后的图,再转为4bit tif,而PDF图可能更接近原图,比如这个,第1046页,原图是黑白的,但PDF却是彩色的,是不是弄错了:
P1046原图:
P1046 PDF图: