收集扫描档案数据(用于训练放大扫描书的AI模型)

如今的OCR技术跟以前不一样了,想要保留插图,可以用文档解析功能: 通用文档解析-RAG文本解析-PDF转markdown-TextIn 排版问题也可以解决,比如有些pdf转word工具的版面恢复能力不错,另外,像Google 的Gemini 2.5 flash/pro系列,OCR能力很强,想要怎么排版,下指令写prompt即可。至于费用,Gemini 模型比较便宜,某些pdf转word服务打包了收费很低。

我的基本感觉是现在图像里的文字只要人眼能识别,大模型也能辨别,人眼都看不清楚的,upscale也没用。

当然,“书之溯源”这个项目本身也是很有意义的,我在Google的colab测试过,效果很不错。