必须得自己买一个扫描仪了,上限5000元,求推荐

一般彩色书600dpi够了,dpi越高扫进去的污点越多。又不是做超大的婚纱照。210mm乘280mm的如果按600dpi扫成彩色jpg格式,一张图片20多兆,你如果按照1200dpi扫描成彩色,出来的体积更是恐怖。你可以看看下面这个图片文件多大,下面的这个图片还是彩色又转成灰度了。
链接:https://pan.baidu.com/s/19EQ18Snm8AlFZbSgHluM1g
提取码:f2m4
五号字如果OCR,300dpi够用,低于五号字的绝大多数都是词典了。如果扫描仪的dpi不是从300直接一步跳到600dpi,如果里面有400dpi的设置,五号字用400dpi扫描是比较合适的,扫出来的体积不是很大,OCR效果较好,清晰度也较好。电脑配置低的,如果扫彩色图片,如果字不是很小,千万别用1200dpi扫描,如果你扫描仪有2400dpi,那更不要用2400dpi扫描,扫出来的图片超大,处理的时候占有电脑资源特别多,除非你电脑硬盘空间是几十TB级别的,CPU i9, 内存超过32G的。喜欢折腾的可以自己去试试。我可是用扫描仪到目前第19年了,用坏过一个,现在家里两个平板扫描仪,两个高拍仪,还有个大型复印机能当扫描仪用直接可以扫到电脑上。
我这里说的OCR效果是按照ABBYY Finereader 14 算的,我用的是Corporate版本。就算是Finereader 8.0 识别英文的准确率也接近100%,前提是要识别的文件没噪点污点或手写笔记。汉王文本王软件的OCR效果与ABBYY Finereader还是有不少差距。Finereader在多年前好像是9.0版本刚加入中文识别的时候,那时候汉王文本王识别中文的效果可能比Finereader识别的好,后来不知道在哪个版本汉王的就被超越了,Finereader 双语混合识别效果更是无敌。

4 个赞

你没有切书,照片需要软件处理。体积太大

1 个赞

这就是你所谓的高dpi扫描彩色的结果,与切书不切书没关系,切书无非少了书脊那一小部分,再就是一页变两页。一块大面包切成多少份合起来的总体积还是原来的那个体积。你不是表示dpi越高越好吗?如果按照1200dpi扫描,扫描彩色,扫完一本书硬盘空间被占了一大半。对于笔记本用户而言,装两个硬盘的很少,绝大多数笔记本电脑用户的硬盘空间不超过2TB。按高于600dpi扫彩色,用不了几天就要去买硬盘了。你的电脑难道是10TB还是100TB的硬盘空间?
别给我说什么切书扫什么的,我切书扫的资料比你多了去了。一本普通书如果上面的字体大小大于等于五号字,你非要扫成多少G的大小,真没多少意义。除非你特别喜欢这种非常大的文件。
如果你的意思是照片用软件高压缩比压缩,那真是多此一举,那还不如开始扫描的时候选择合适的dpi。

扫成1200dpi,软件压缩成150dpi,大小是原来的六十四分之一
扫描仪说:那感情我之前白干了?

1 个赞

在美国用了KIC Bookeye 4,算是Overhead Scanners

听说哈佛大学用了

其他的公司:

KIC官网:

还是要看字的大小和内容。纯英文的黑白也许 300 dpi 就够了。
中文笔画多 600 dpi 比较保险。
先试扫个几张看满不满意。

体积问题,我是扫黑白扩散 (dither)
再用 scan tailor 去背景杂点,
效果不错,体积也小。
不过 dither 效果要看演算法,
我用 fuji xerox ,是做影印机的老牌子,觉得不错

2 个赞

个人的一些理解:

DPI指的是分辨率, 和压缩率是不同的概念吧。通常指的是:这么大物理面积的页面,扫出来是多少像素x多少像素的图片。

扫描过程其实是种模数转换。实体书籍等资料在物理上可以精细到原子甚至更高的级别,可近似认为是连续的模拟信号,而数字显示设备的精确度是像素点级别的,是离散的数字信号。扫描过程中单位物理尺寸要使用多少像素点来表示,就是DPI的概念了。

书籍等印刷材料在进行打印、喷绘时,也有限定DPI, LPI之类分辨率,取决于成品的尺寸、内容、一般观看距离等, 大致原则应该是在保证观看效果的同时,限制成本, 提升效率。

原理上讲,扫描时选择的DPI高于印刷制作时的分辨率, 是不会获得更多的有效信息的。所以一味提升扫描时的DPI,可能只会增加文件大小,而不会获得更多有效信息。但是考虑到印刷制作和扫描时信息都是有损的, 所以扫描时使用稍高的DPI,还是能保存到更多的有效信息。

压缩率指的是数据压缩,使用压缩算法将原始数据用更少的字节来表示。对图片进行数据压缩不会改变DPI。

压缩算法可以分为无损和有损两类。 扫描仪首先按照设定的DPI获得像素点信息,之后把这些信息输出成文件,可以是未压缩的图片文件(如无压缩的BMP、TIFF等), 或者是无损或有损的压缩图片文件(如png、jpg等),或者是其他形式的文件。

无损图片压缩可以做到2-3倍或者更高的压缩率,有损图片压缩根据具体情况,在肉眼无法明确区分的条件下, 可以做到7-8倍甚至几百倍或者更高的压缩率。

一般扫描软件内置的图片压缩算法压缩效率并不太高,清晰的原始扫描图片体积相对比较大是比较常见的。 使用图片优化工具重新压缩, 可以在基本无可见差别的情况下,大大减小成品电子书的体积。 如果用ComicEnhancerPro之类的工具进行优化处理,不损失可读性的情况下,又能再度大大降低对硬盘空间的需求。再用ABBYY之类的OCR,可搜可复制,又或者制作成mdx之类的电子词典, 以便查阅,就更为理想了。

1 个赞

dpi是扫描仪的扫描参数,代表扫描仪能够扫描到多少精度,压缩率是后期处理的问题,与扫描仪没关系,图片和PDF都可以进行压缩。

你说的“扫描时选择的DPI高于印刷制作时的分辨率, 是不会获得更多的有效信息的。”这是对的,到目前为止绝大多数人手上的书的字还不至于要拿着放大镜看,那些书打印或者印刷的dpi肯定到不了1200dpi,dpi超过一千的打印机基本上都属于激光机,喷墨机很难达到那么高的精度。

压缩就跟减肥差不多,本来是个胖子,减肥成瘦子。

你说的压缩分无损压缩和有损压缩这也是对的,图片的是不是这样我不知道,但PDF确实这样,图片转PDF进行无所压缩差不多就是不压缩。除此之外剩下的全是有损压缩。图片转PDF格式的软件绝大多数没这么细的设置,Nuance Power PDF软件有这种设置,可以选无损压缩(100%),有损压缩(75%,50%,25%)。

当然如果有人非要习惯把每页文件扫描成几十兆的大小图片然后再处理那就是个人的选择问题。

你说的绝大多数是对的,只是扫描适合设置dpi与汉字笔画多少关系不大,而是与这个字有多少相似字有关,如果这个汉子没有任何相似字,那么笔画再多也没必要需要很高dpi, 如果汉字是日和曰这种汉字笔画再少dpi高点也可能识别错误。

你所说的缓冲还有扫描软件以较快速度输出图片,这个问题只在高速扫描仪(馈纸式扫描仪)上才会体现出来,你如果用平板扫描仪即便是用三千多元的那种扫描仪即便是用服务器的配置,扫描的速度也快不到哪去,就像你在电脑上只是敲几个字母你没法根据这个判断电脑速度快慢一样。
一个扫描仪的简单问题都聊到了压缩算法。

总结一下用扫描仪的人需要关注的问题,如果扫描彩色的,一般是保存为jpg,png格式,如果是扫描纯黑白的,保存为TIFF或者TIF。如果某人给你讲扫描仪价格越高扫描速度越快,那基本都是高速扫描仪(馈纸式扫描仪)(需要切书的那种扫描仪),平板扫描仪即便是你花上万元也速度提升不了多么点,当然在扫描高的dpi的时候价格高的平板扫描仪速度稍微快一点点。对于扫描完的图片转PDF的软件,这种软件特别多,如果你要转出的PDF兼容性好,建议选转换软件用Adobe Acrobat PDF Professional或者Nuance Power PDF,转换的时候还可以选择PDF版本,如果你设置的时候高版本的PDF,那么低版本的PDF阅读器可能打不开。
如果你想直接扫描完就不用动手变成可编辑的word格式,这种情况对你的文件要求要高,上面不能有笔记这是常识,最好是单语种的,那么软件推荐ABBYY FInereader,scan to office(支持低版本的2003版Office, 支持英语识别或上百种语言,但不支持识别中文,也是ABBYY家的)

1 个赞

Image Access, Inc. 和 Atiz的这种扫描仪价格都是以万为单位。Disg的和Kis的都是如此。退一千万步讲,假如这种扫描仪在国外价格并不高,到中国价格肯定高的要死。就算是你买得起,这种扫描仪因为国内基本没货,买的话非常麻烦。

2 个赞

樓主這是要做一番大事業嗎?

李华驹的大英汉词典二手只卖1块钱,加5块钱运费,我去收了一本。这价钱切了扫也不心疼,可以再买一本。
孔网真是好地方,一些老词典,特别是出过新版的,旧版都超级便宜。
但是另外有些绝版书加价几百块卖都有,二手书商也是贼精明。

这也跟最近疫情,大多数人还是不敢也不愿意买二手书啊。

不过最近的书怎么都没有塑封了。

果然亚马逊退出后,质量就降低了。。。

一般来说,1200dpi扫的,缩小成600dpi,就是比600dpi扫的强那么一点。
至于前面有人说处理起来慢,我觉得不算大问题,现在PC性能过剩,不用来干些重活也是浪费,至于时间消耗,反正是脚本化批处理,又不用人盯着,后台跑就是了。
当然,纯文字的,600dpi或是300dpi都是足够的了。

所以楼主后来到底买了哪一台?