在anna archive上发现了《新牛津英汉双解大词典》第二版 的pdf

谢谢,1454有问题吗,好像就少了一页。

1454页是N字头的第一页,没有页码,你要确认一下。

N那页1454加了,1456是什么问题?可能我记错了号码。

depgreen老兄已经回答了。

这些都修复了,就是忘记了1456也少了。今天把它加进去。

然后重复修补大体积的那个原版的,用你们给的两页。

本来当年想在3GB文件的基础上做一个二值化版本,文件大小希望控制在500-800MB,后来发现有缺页,修补的页面清晰度不够,只好作罢。

发现1456在原版里面,就是有点歪。都修复了,上传了。

简单阀值双值在有些文件里面会砍掉太多内容。我用的是有点复杂的算法,结果还是双值,内容保留多些。

看到你制作的文件,挺好,清晰度可以接受,不知道你用的什么软件处理的,如果处理时图片放大一倍 ,可能清晰度会好不少,但文件大小会增加到500MB以上。还有就是因为部分页面倾斜度较大,裁边太狠的话就裁到肉了。

主要不是大小,而是如何计算阀值。我用的是adaptive threshold with Gaussian distribution. python 自己写的程序。

比如1466页重复,第二个1466页就比较斜,裁切到肉了,所以还是保留第一个1466页。
我一般先二值化并统一页面大小,再大体上人工过一遍,部分页修补(纠斜,居中,祛斑,美容,去黑边,可能部分文字或图片还要挖补),最后再考虑是否裁边如何裁边。
裁边有一个问题,就是部分页的文字部分不是整页(比如每个字头的第一页和最后一页),如果简单裁边就会造成页面大小不一致,如果编程批量处理就要从算法上考虑如何正确裁边并且保证页面大小一致。

看到增加了一个原始文件的修复版本。但二值化文件的时间戳记还是昨天晚上8点多,是最新的吗?

我因为是双值,中间的那些步骤就不用了,反正都砍掉了。

边框的确大小不一样,只是要缩小浪费的空间,全屏。

二值化文件昨天都修好了,你看看有没有漏掉的?我看了没有。

切到肉的那个刚好是重复的,就保留了没有切到肉的。

那1454页好像没裁边。

全屏浏览会发生字体大小显示跳跃。

好的,让我修复一下。

这个就顾不上了,目前没有固定dimension的步骤。可以后来补margin,但是不就开倒车了么。。。

弄好了。你看看

粗看了一下,还是有裁到肉的,比如正文14,2334,2366,2378,2567

这些慢慢修补把,貌似还是可以辨认的。。。。

这个看起来蛮好的,估计要折腾微调算法。

1 个赞