收集扫描档案数据(用于训练放大扫描书的AI模型)

mixivivo · 2025 年4 月 18 日 06:46

如今的OCR技术跟以前不一样了，想要保留插图，可以用文档解析功能：通用文档解析-RAG文本解析-PDF转markdown-TextIn 排版问题也可以解决，比如有些pdf转word工具的版面恢复能力不错，另外，像Google 的Gemini 2.5 flash/pro系列，OCR能力很强，想要怎么排版，下指令写prompt即可。至于费用，Gemini 模型比较便宜，某些pdf转word服务打包了收费很低。

我的基本感觉是现在图像里的文字只要人眼能识别，大模型也能辨别，人眼都看不清楚的，upscale也没用。

当然，“书之溯源”这个项目本身也是很有意义的，我在Google的colab测试过，效果很不错。