收集扫描档案数据(用于训练放大扫描书的AI模型)

之前我训练过一个扫描书放大的模型sourcebook,并且做了相应pdf放大工具(应该有人用过)GitHub - tumuyan/SourceBook-Dataset: image datasets & model for text/book super-resolution

这是效果 SourceBook | 书之溯源 - Imgsli

ai放大虽然不一定保证笔画正确,但是和转文字比能保证不不产生错字、错误排版,和原档比眼睛感觉更舒服些。

受限于硬件水平,当时使用了取巧的手法,主要用纯合成数据做了训练。虽然效果不能说完美,但是至今我还没有见过别人提供了公开的模型, 在这个具体应用场景中,能够在开销没有远高于此的前提下达到相同或者更好的水平。

最近又有了新的想法,准备重新训练一套效果更好的模型。

现在希望可以收集到一些扫描样本制作为公开的数据集用于训练。(朋友推荐说可以问问这里,字搜了下也有人发过sourcebook)

收集的内容大致分为两部分:

  1. 我会制作一套pdf文件,需要你打印这个文件,然后用扫描仪使用不同dpi扫描为不同图片。如果你有处理扫描书的经验,可以额外处理一下,得到扫描原件/处理后的图片 两组文件。
  2. 直接提供给我一些扫描书。具体要求如下:
    a. 不需要激光印刷的接近文字版的那种纯文字扫描书,如果有大量插图除外(主要是印刷使用的插图和普通数码图片有很大差别)
    b. 不需要古籍, 希望出版时间在1950-2015。(古籍字体和字号差异太大,暂时不考虑)
    c. 不需要完本,每本书有几页几十页就够了。
    d. 如果能够提供
    e. 需要有非常高的分辨率,我们需要把这样的高分辨率图片视为结果,缩小一半的分辨率作为待处理的图片。如果分辨率不够,缩小一半人眼辨识都困难,那处理也就得不到好的结果了。

最终完成训练后,仍然提供和现在的sourcebook相似免费工具。

考虑到需要做大量交流和传递大量文件,可以加q 85064-5028联系,备注扫描

6 Likes

如今对付这些模糊的图像扫描文件,还有另一个办法,就是直接ocr成文字版,清晰度要多高就有多高。不过它对ocr引擎的要求较高,下面是合合OCR对示例图片的识别结果:

发明者电子设计宝典

负电荷体(被负电荷的物体吸过去,被正电荷的物体推开)。电场用来描述这种由于电荷体

的原因作用在单位正电荷上的力的大小和方向。在这种系统内当单位正电荷从一点运动到另

一点时,它的势能就变化了。这种势能的变化等于单位正电荷通过一段距离所做的功。如果

我们用这个势能除以单位正电荷,就被称作电压(或者叫电势-不要跟电势能混淆)。经

常我们用电势和电动势来代替电压。

电压(用符号V表示)的定义是:把单位正电荷从一点移到另一点电场力所做的功。

电压的单位是伏特(用大写字母V表示)。1伏特等于1焦耳每库仑:

1V=1J/C

在电子学里,可以把电压看做是一种电压力,就像水的压力一样。这种模拟可以看成是

一个装满水的桶和两片带有电荷的平行的极板。

电系统

0

A

水系统

正电荷

4

图2.3

图2.2

在水系统里,由于水的重量水压力在桶底处最大。如果在桶的一边开一些小孔,水为了

释放内部较高的压力就会射出。桶上越低的孔,射出来的水柱越远。水柱由于地球引力会弯

向地面。

现在,我们用水来模拟正电荷粒子,用水压来模拟电系统极板间的电压,正电荷粒子会

从正极板中拉出,移向负极板(b)。电荷会从电压较高处移向电压较低处(就像水会从桶

里流出一样)。当电荷移向极板(b)时,施加在极板(c)和(d)上的电压会使正电荷弯向

极板(d)-正电荷再一次移向电压较低处。(这就像当水从桶里流出时会由于地球引力

弯向地面。)极板(a)和(b)之间的电压越高,电荷束弯向极板(d)的程度就越少。

电压是一个相对值。例如,说电路中某一点的电压是10V是毫无意义的,除

非在电路中找到另一个和它比较的参考点。最典型的是地球,它对电荷具有无限

的吸收能力,是一个纯净的零电荷体,可以作为一个很好的比较点。地球通常被

看做是零参考点或地点。地的符号如图2.3所示。

在电路中有时并不指定以地作为电压参考点。例如,在图2.4中,前两个电池系统中电

池的一端电压就是以另一端做参考点,而第三个电池系统就是以地作为参考点的。

ocr可以说是比较传统的做法了。但是对整本书处理的工具是否收费暂且不提,问题的关键是ocr电子书无法避免校对的过程。文字识别的准确性毫无疑问越来越高,但是排版始终需要人工修复。还有个小问题是对插图无能为力。

1 Like

如今的OCR技术跟以前不一样了,想要保留插图,可以用文档解析功能: 通用文档解析-RAG文本解析-PDF转markdown-TextIn 排版问题也可以解决,比如有些pdf转word工具的版面恢复能力不错,另外,像Google 的Gemini 2.5 flash/pro系列,OCR能力很强,想要怎么排版,下指令写prompt即可。至于费用,Gemini 模型比较便宜,某些pdf转word服务打包了收费很低。

我的基本感觉是现在图像里的文字只要人眼能识别,大模型也能辨别,人眼都看不清楚的,upscale也没用。

当然,“书之溯源”这个项目本身也是很有意义的,我在Google的colab测试过,效果很不错。

云 ocr 还原简单的版面还可以,分栏的都不太行,用合合的 pdf 文档解析过 7000 页以上,不校对基本没法直接使用。

我讲的对插图无能为力,不止是让插图还原到排版中,还有插图本身不清晰的问题。sourcebook的做法是无视插图还是文字,一次性全部处理(当然更好的做法是解析排版,让图片和文字分别用不同模型)从功能实现和效果上,都能够更好地保留原来的味道。

当然我也不是吹嘘sourcebook多强,事实上我自己也很少用这玩意处理整书。主要还是体积太大开销太高。前边没有讲,实际上我也在考虑是不是可以把模型做轻量,内嵌到阅读器中,实时处理而无需提前处理文件。但是终究是想法,还是先炼模型吧。
从实用性讲,ocr+校对确实是好的选择,但是不同的事情总是要有人做的不是嘛。

现在模糊低劣的扫描pdf图书,根据我自己的经验观察到主要有四种来源:1)超星早期150 dpi扫描的pdg文件,所谓的快速版;2)从一段时期的读秀(duxiu)下载的大图加水印jpg;3)超星近些年来使用的灰度jpg文件(底本相对清楚,但需要进一步处理,比如黑白二值化,锐化,降为8级灰度等);4)Internet archive扫描的暗色发黄模糊pdf文件,通常也粗糙ocr过,它使用的图像压缩技术比较奇怪,翻页很吃力,费算力。

对这些劣质图像pdf,我一般会在 anna’s 寻找清晰版的替代,找不到,大多数情况下就弃疗了,它们通常也不是什么重要、必读的书,随便快速翻翻作为参考,模糊点也没有太大关系。

sourcebook处理 汉语大词典,一万多页,总共花了十二天。

3 Likes

论坛里有一些超清晰的自扫图书,甚至是压缩为PDF之前的原始扫描图片。不过太大了,得是有大硬盘和高网速、才能收集下来

等您的好消息

1 Like

这回重新训练有没有可能x4,用以对付原始分辨率较低的文档。

实际上近年来常见的模型多数都是4倍,2倍反而是少数.我当时特意做2倍的原因其实就是考虑到放大结果的体积和实用性. 即使训练4倍模型,也只是让文字一次性变更大,而不是把更模糊的文字变清晰.
这是技术路线本身的限制. 像这样不通过识别文字,而是直接放大,是不可能让模型把人眼辨识困难的文字还原为清晰文字的.
反过来讲,只要做了识别文字的动作,那就会有识别错误率,必然导致还原的文字本身被改动.

2X遇到笔画繁杂的汉字,会出现笔画错误,当然原书也是难以分辩。

1 Like

只要原图的笔画难以分辨,那放大出现笔画错误就是无法避免的.情况在上边已经说过了.
具体错误的多少、错误的形态,是可以通过调整被训练的资料、调整模型本身、参数、训练时间来改变的.但是这是需要精力、时间、设备去做的, 只是别人没有做那我去做一下,我也无法承诺去改善某个具体的问题.
实际上比起提供这个工具本身,我同时做了另一个有意义的事情:仓库本身就是用于训练模型的数据集,有资源的话可以基于这个数据集,或者基于这样的思路来训练新的模型.

我对这个软件的定义就是让低分辨率的书更适合阅读,而不是更适合于收藏保存——未来一定会有更好的模型甚至是有人去重新做扫描.

我不相信AGI的一个原因,是在OCR上没有能替代人眼的普适大模型。

例如豆包的图片OCR准确率非常高(当然也发现偶有hallucination的情况),但只适用于横排的书籍。
换成竖排,尤其是竖排中还有小字体双排情况的(如附件图片),又得重新训练一个专有的大模型才能保证OCR准确率。

1 Like

顶级ai lab目前只是不care中文OCR的问题,并不是不能、没法解决,像下面的钱锺书外文笔记手稿,比各种印刷版文本难辨认多了,Gemini 2.5 flash 照样可以以很高的准确度识别。

钱钟书手稿集 外文笔记 第6辑 45 - 商务印书馆,2015 - p92

Works of Lord Byron, ed. R. Prothero, 1899, Vol. I, 446-54.
** New Monthly Magazine, XI (April 1, 1819), 193-206.
The grave of the old man & found his body breathing; they drove a stake through his head,
he cried out louding & clutched blood through his mouth. Byron never completed his
vampire story. Polidori was first published in 1819 under the title “A Fragment.-
Translated from the Armenian”. *
accompanied by a friend Augustus Darvel, a mysterious figure. At Smyrnake,
Darvel dies after giving instructions on the exact spot where he is to be interr-
ed & exacts a solemn pledge from the narrator to conceal the fact of his
death from every human being. 314 * In Polidori’s tale The Vampyre: A Tale by
Lord Byron**, an English gentleman Aubrey embarks on the Grand tour in
the company of Lord Ruthven, a mysterious man given to gambling &
seduction. In an encounter with the robbers, Ruthven receives a fatal wound.
Before dying, he makes Aubrey swear that he will not reveal his fate until a
year & a day have passed. When Aubrey returns to England he finds Ruthven
already on the scene. Soon his sister dies, having “glutted the thirst of a vampire”; Ruthven disappears. In all later versions,
he is overcome by the forces of good. Nodier’s play, based the story in 1820 was
the title Lord Ruthven, ou les Vampires. Nodier’s play was freely
translated’ by J. R. Planche, the Vampire; or, The Bride of the Isles, which
gives the story the Nodier’s original, gives a Scottish setting to the event.
1817 Two separate German operas based on Nodier’s play: Der Vampir by
H. A. Wohlbrück & Der Vampyr by C. H. Marschner. 1818 Dumas placed the action
in Spain. A group of French travellers led by the romantic hero Gilbert who
is attracted by a Moorish girl. Her diet is composed entirely of dead grains of rice.
zioka.

反搜一下,可以发现这一段笔记的来源是 https://www.enotes.com/topics/alexandre-dumas/criticism/criticism/owen-aldridge-essay-date-1972

参数、算力有限,什么是当务之急,什么性能指标需要优先考虑,安排使用多少训练数据,他们都是心里有数的。对openai 和Google Gemini这些来说,竖排繁体中文OCR显然不是他们的优先事项,对阿里、字节、deekseek来说也不是。

1 Like

我的意思并不是说大模型永远都不能正确OCR某种图片上的文字。
而是说对于任何一个训练好的大模型,总是能找出一些它不能正确OCR的图片。
而人眼通常不需要安排优先事项来专门训练、拓展功能后,才能正确识别图片上的文字。
所以,所谓AGI马上要实现、要全面替代人类了的论调是不现实的。

古籍的问题更大.人也不是个个都能识别这些字的,而ai做好了人人都能拿去识别.所以事情终归是有意义的.
所以问题回到了谁去做ai?以及目前还没有编码的字怎么办?再回归一次,问题就变成了需要有人去收集整理数据集.针对古籍,这一部分甚至不是投资就能马上有的东西.

如上所述,只能说这种事情很难寄希望大公司,还是得文物单位、高校、研究所去做.
据我所知,在这波ai浪潮来临之前,就已经有专门的古籍识别校对的工具了,虽然不是一键出结果,但是要比普通的通用ocr强很多.

高估很多人的能力了,我可以担保,大多数中国人既不能准确识别我示例的英文,也没法认全你示例的繁体古文,但目前的大模型,是可以识别100多种不同语言的,且可以用它们自由交流。

1 Like