收集扫描档案数据(用于训练放大扫描书的AI模型)

lamda05 · 2025 年4 月 25 日 14:43

我认为相比人工扫描的杯水车薪，计算机大量生成类似扫描版的图片可能才是更好的方法（现在的ai也可以帮忙）。

我讲的对插图无能为力，不止是让插图还原到排版中，还有插图本身不清晰的问题。sourcebook的做法是无视插图还是文字，一次性全部处理（当然更好的做法是解析排版，让图片和文字分别用不同模型）从功能实现和效果上，都能够更好地保留原来的味道。

现在的版面分析程序也已经很先进，例如： jiangnanboy/layout_analysis。可以对图片和文字使用不同的模型放大，之后还可以使用不同的压缩方式（文字可以二值化，图片可以稍低分辨率）

还有一件事我必须要承认：刚看到您的作品时我把手头的很多书都处理了，现在我反而用得不多了。正如楼上几位提到的，我也感觉、ai消灭扫描书籍（版面分析程序识别文档结构，ocr识别文字，然后按结构还原）已经时日无多。目前最重要的是保留尽可能多的原始数据。