收集扫描档案数据(用于训练放大扫描书的AI模型)

AGI的标准并不在乎具体某类人的能力,而是聚焦于能否取代人类。

要是照你的说法,任何一个大模型的OCR能力都不比下面这些人差:根据联合国数据,全球成人(15岁及以上)文盲约7.59亿人

你这种agi的定义是不大寻常的,比如openai、anthropic官方都不是这种说法,我看到的不少ai专业人士也不是这么讲的。虽然agi具体是什么言人人殊,但普遍接受的一个定义是ai可以执行广泛的认知要求比较高的任务,其熟练程度能够与普通人相比,甚至超过大多数人类。它能通过图灵测试,iq达到120、130、140,我认为就差不多了。agi不是asi,不是爱因斯坦,不是超越所有人类的alpha go。说“取代人类”甚至在伦理上是不正确的,我没见过那个正儿八经的top lab宣扬过这个目标。

笔画不正确,不就是错字吗?(这个问题困扰了我几天,还是决定说下

之前我转载了您的作品:SourceBook——使用GAN提高扫描书籍分辨率 - 软件经验交流展望 - FreeMdict Forum,十分感谢您的贡献。

我认为相比人工扫描的杯水车薪,计算机大量生成类似扫描版的图片可能才是更好的方法(现在的ai也可以帮忙)。

我讲的对插图无能为力,不止是让插图还原到排版中,还有插图本身不清晰的问题。sourcebook的做法是无视插图还是文字,一次性全部处理(当然更好的做法是解析排版,让图片和文字分别用不同模型)从功能实现和效果上,都能够更好地保留原来的味道。

现在的版面分析程序也已经很先进,例如: jiangnanboy/layout_analysis。可以对图片和文字使用不同的模型放大,之后还可以使用不同的压缩方式(文字可以二值化,图片可以稍低分辨率)

还有一件事我必须要承认:刚看到您的作品时我把手头的很多书都处理了,现在我反而用得不多了。正如楼上几位提到的,我也感觉、ai消灭扫描书籍(版面分析程序识别文档结构,ocr识别文字,然后按结构还原)已经时日无多。目前最重要的是保留尽可能多的原始数据。

找了一个分辨率高一点的版本,瞎跑了一下:

後漢書集解述略

范氏撰後漢書原定十紀、十志、八十列傳合為百篇。
本史通正史篇。蓋取與班氏前漢書相應其敘例論贊。

始均別行。
范獄中書云。紀傳例為畧其大略。劉昭補志序云。范敘例所論備精與奪章懷注光武紀、安紀並嘗引范敘例之文自應別有傳述隋志別有范氏後漢讚論四卷唐志作論贊五卷宋志始不著錄當由已無單行本。

先成十志未及偏作久遂全俠。
章懷注帝后紀十皇女下云沈約謝儼傳范所撰十志。皆託儼搜撰畢遇范敗悉蠲以覆車不復得按此所引沈約儼傳宋書不載。今無可考。但范有百官志已見帝后紀。有禮樂志、興服志、見東平王蒼傳。有五行志、天文志、見蔡邕傳、又南齊書文學傳、檀超掌史職、議立十志百官依范暹合州郡是范志齊時有存者。超目見能舉其例。至梁乃全俠恐蠲以覆車之說特指餘志未成者也。序例疑亦未備。

凌至並亡。范傳載范獄中為書與竇娥紋其作後漢書大略。自負特甚然固不愧體大而思精也。
書五言狂疊覆滅豈復可言汝等皆當以罪人事之。然平生行已在懷獨應可尋。至於能不意中所解。汝等或不悉知。吾性不尋注書。心氣惡小苦思慮憤悶。口機又不調利。以此無談功。至於所通解處皆自得之於胸懷耳。文章轉進。但才少思難。所 以每於操筆其所成篇殆無全稱者。常恥作文士文患其事盡於形情急於藻義率其旨韻移其意。雖時有能者大較多不免此累。政可類工巧圖繪竟無得也。常謂情志所託故嘗以文傳意以意為主則其旨必見以文傳意。則其詞不流然後抽其芬芳振其金石耳。此中情性旨趣千條百品屈曲有成理。自謂頗識其數嘗為人言多不能賞意或異故也。性別宮商識清渾斯自然也。

述略

1 个赞

问题在于如何定义错字以及对错字的接受程度. 与宋体楷书这类标准写法比,草书缺失笔画、变形、连笔是不是某种程度的错字呢?我认为一定程度上的错误是可以接受的,关键还是在于阅读的体验上,用自己的眼睛去收货,是不是改善了体验.
举例: '目’多了一横,是可接受的错误,但是如果识别为’用’就难以接受了.

其实我在发布出来的时候就在讲,主要用于临时改善体验,处理结果没有收藏价值.一方面是体积,一方面是技术必然会发展.
但是说即使世上已有高清版本,但是找到他是不是需要额外的精力呢?自己用本地程序能够做到70分,我觉得是一种最低保障.

问题在于这都需要额外的算力,分析需要算力,调用另一个模型也需要算力(这甚至不是2倍算力的问题)另外让文字看上去清晰舒适,恰恰不是二值化,而是边缘留有灰阶.

实际上目前为止,我使用的训练素材几乎都是合成的,这恰恰是目前面临的一大问题:生成的数据只能代表我认为应该存在的劣化方式,和真实扫描结果存在偏差.
比如我最开始就意识到的上世纪的铅印文件.
而我亲自用一台老的扫描仪设置不同参数进行扫描时,更是发现了令自己难以置信的结果.
反过来讲,几乎没有任何实用模型是完全用合成的数据来训练的.

我看过您github里的训练素材。我认为其中出现的问题有:①dpi过于单一,导致对与之偏差太多的文字效果不好;②没有扫描版出现的各种机械误差。③使用的字体和出版字体有差异(感觉超分之后很多文字都变成了思源宋)

不过我还是认为这些机械误差都是可以模拟的。

正是因为AGI没有统一的定义,所以其标准一定是非常高。因为假设某个公司声称实现了AGI,别的公司或是个人会认同吗,如果别人不认同,那单方面主张就变成了笑话。所以最终一定是绝大多数人都认同的标准才行。目前最通俗易懂的就是Deepmind提出来的六级,最高级是超越100%的人类。当然,我觉得这个短期内实现不了,远期能否实现也值得怀疑,所以最终大概跟自动驾驶一样会玩文字游戏,说实现了几级AGI。

楼主的这个项目我挺看好的。其与OCR是不同的需求,适用于图文混排的材料,比如杂志、漫画等。比如漫画,虽然画本身放大之后的观感已经不错,但是人眼往往会对画中的文字的瑕疵更为敏感,这就是楼主项目的优势所在了。而且OCR在做不到100%或者99.99%以上的情况下,扫描件永远都有需求。

并非说素材丰富了结果就一定会更好.大号字体可能并不需要这样的模型,或者需要用其他素材去重新训练模型,或者说缺陷并非是分辨率而是对比度或者笔画粗细的问题.在不把模型规模加大的前提下,没法一招能全拿下的,必然是这里变好那里变差.

使用什么样的数据去训练能够产生正面作用,是需要经过大量试验去验证的,我在当初发布之后其实有添加素材重新训练,在这之前也有其他的参数训练,总的来说目前发出来的是效果比较好的模型.我这次其实也有额外准备其他素材.

关于机械误差,如果有真实样本,为什么要软件模拟呢?反过来讲,如果没有真实样本,如何确认软件模拟的是接近真实的而不是想当然的呢?

另外需要注意字体本身是有版权的,如果使用方正宋体做数据集,是不是不完合法合规的呢?作为一种比较基础的工作,我希望它能够更加纯粹.另一方面讲,显示字体和印刷扫描结果是有差别的, 并非添加相应素材就能改善相应字体的扫描件.

我对插图的感受是,让Gemini生成用svg 语法绘制的矢量图,这一点是可能训练AI的方向,一些简单带字母的几何图还可以,但是复杂的线,角关系还是处理不太好