新出的古籍数字化的平台:看典古籍

您的建议太棒了,我有考虑开发一个校对系统对接在OCR和数字化之后,但是一直没动手,诚然,一个人做这所有的东西比较耗时(也是懒的借口),但是经过您这么一说这些问题是确实存在同时也是痛点所在,我会认真考虑您的建议的。
再次感谢您的建议,也祝您万事顺心!
茫茫前路,我将上下求索。

1 个赞

9月7日新增功能,单图在线智能辅助校对功能初版上线了,欢迎体验:《使用文档》收集需求和反馈中…

2 个赞


https://cloud.freemdict.com/index.php/s/pdJqZRz7tYsiHM3
摘出一页,实验了一下

并进行校对后的结果为:

翰林侍講學士朝請大夫守國子祭酒上柱國賜紫金魚
袋臣邢昺等奉
勑校定
序解

正義曰案漢書藝文志云論語者孔子應荅弟子時人
及弟子相與言而接聞於夫子之語也當時弟子各有
所記夫子旣卒門人相與輯而論纂故謂之論語然則夫子
旣終微言已絕弟子恐離
居已後各生異見而聖言永滅故
相與論撰因採時賢及古明王之語合成一法謂之論語也
鄭玄云仲弓子游子夏等撰定論者綸也輪也
理也次也撰
也以此書可以經綸世務故曰綸也圓轉無窮故曰輪也藴
含萬理故曰理也篇章有序故曰次也羣賢集定故曰撰也
鄭玄周禮注云荅述曰語以此書所載皆仲尼應荅弟子及
時人之辭故曰語而在論下者必經論撰然後載之以示非
妄謬也以其口相傳授故經林火書而獨存也漢興傳者則有
三家魯論語者魯人所傳卽今所行篇次是也常山都尉龔

单字的准确度其实挺不错,发现的几个问题:

  1. 竖行没有完全从右至左,需要上移一行(校对操作简单),可能是这一页的单栏大多数是双竖行,单栏里面的顺序还是从左到右。
  2. 字与字之间、或者字与边缘的间隔划分,个别时候有问题,导致时不时多出来一个横线或者“一”字,需要删除。
  3. 对像素宽度的限制为3000像素,上面的PDF单页导出来后只有100+K,但像素超过3000,缩小像素以符合要求,但文件膨胀到1.4M,不知道这样是否节约了占用资源。建议200K以下的图片可以放宽像素要求

感谢您的试用和反馈,这里的几个问题:
1、文本行的语序问题,这个问题我会想方案处理,其实语序问题在OCR里面是一直有的
2、这个就是单个字的检测误判,这个是需要比较多数据量去训练的,还得长期积累数据在训练模型去解决了
3、长宽限制问题,现在这个我已经放开到7000了,像素越大对计算的要求比较大,所以前期限制的比较小,现在7000px的话我想常规的图像都能处理了
最后,再次感谢您!

1 个赞

再次试验了一页
0009.rar (124.2 KB)
效果不如上一页。我自己分析的主要原因是:
目前的模型参数对于刻本古籍各个竖行的划分不太好,比如


这个划分把左右邻近的行的部分也包括了进来,导致黄色圈那里被识别成“言”字混入这一竖行。

我技术小白,不太懂模型的细节,但我认为如果竖行的划分、包括字与字之间的划分如果不首先解决的话,校对所反馈的数据对于模型的改进作用有限,因为所识别的图片上明明是有“言”字的,反馈的又让模型困惑地去掉了“言”字。字与字之间的划分不正确也是如此,比如上个回帖中的焚字被识别成了“林火”。归根结底,目前大的问题还是在划分上。

所以,建议模型的训练分为两个阶段:
第一个是解决竖行的划分、字与字之间的划分问题,收集反馈,训练改进模型参数。考虑到刻本本身不太规整、加上扫描页面可能歪歪斜斜等,最好不要用四条直线圈成一个长方形,而是先逐个字划线,然后组成一个竖行,这样左右竖行的关系也好确定(远期是去除书耳、版心等等整个版面的处理)。
第二个才是单个字的识别准确性问题,这个反馈越多,效果自然而然就会越好。最好想办法提供将“林火”本来两个单字方框合并的操作。

感谢反馈,您说的没错,模型的识别效果和训练的数据是正相关的,我训练数据中大部分都是原色的那种古籍扫描图像,这种白底黑字的大分辨率的比较少,就导致对于这种图像的识别效果比较差,识别是一个顺序过程,从文本行检测到最终的识别输出,前向检测效果差的话后续结果也会比较差,我已经记录您反馈的这部分问题了,后续我会进行多方面数据的收集和加入到训练中去学习,提高识别能力。

最好不要用四条直线圈成一个长方形,而是先逐个字划线,然后组成一个竖行,

这个其实在单字检测OCR中是已经实现了的,通过每个字的坐标信息去还原文本行,但是也会有一些问题,面对常规标准图像时效果还可以,但是在古籍中有比较多的是大字列里面有两列小字的这种,效果上会差一些,最终语序效果也不如文本行-》结果的模式,还是需要在实际中进行实验并改进了。

两个单字方框合并的操作。

这个功能我后续会实现出来,单字合并和文本行合并两个功能
最后,非常感谢您的试用和您宝贵的建议,您的反馈我都有进行记录并会认真考虑的!

1 个赞

9月调整,欢迎体验 看典古籍www.kandianguji.com/

1、【搜索】版块更名为【全文检索】

2、【善本大全】版块卡片高度对齐

3、阅读页文本添加加粗,根据识别数据按照可信度分不同颜色展示

4、阅读页新增【书内检索】功能,可在当前古籍中检索数据

5、阅读页新增【编辑】功能,开放用户校对编辑权限

6、阅读页分页添加输入跳转功能

7、【全文检索】检索结果正文内容加粗显示,检索词高亮显示,检索结果页顶部新增检索操作功能,更方便使用

8、【数字化】版块新增自定义图像尺寸调整

9、【数字化】版块新增用户【全书校对】功能,可在线点校自己的古籍,支持导出全书txt、json、图像以及双层PDF(可选择可复制文本层)

10、【古籍OCR】版块新增图像尺寸自定义功能

11、【用户】版块新增【找回密码】、【昵称修改】、【密码修改】功能

12、全站通知邮箱与反馈邮箱切换为[email protected]

13、其它已知bug修复

1 个赞

标点可以识别了,但还是不高,“『』”基本上都是识别对反。

标点在下个版本会修正完成,模型迭代比较慢

非常感谢您提供免费好用的网站。

感谢使用,有人用就是我继续的动力

不能支持分栏页面的识别。一个页面有两个栏目,比如现在很多辞典。

已记录,后续支持!

大神,全文检索,能否直接
200到300字的,甚至400到500字
分条文显示

比如检索麻黄,直接显示包含麻黄的条文,300条,从1,2,3序号排列,一目了然,便于治学

感谢您的反馈,这个功能可以做,已经记录了,后续将会支持

谢谢您。

其实就是分条文,
还能预览长度几百字符,包含关键字的长句。

功德无量

今日正式上线的新古籍平台: 全球漢籍影像開放集成系統 – Image Index of Global Chinese Ancient Books (wenxianxue.cn)

宣传字眼有些夸张,只是数据库式的提供跳转链接,不存储图像,功能还有待完善。相比之下,看典古籍更好用。

1 个赞

感谢您的推荐和您对看典古籍的肯定,我个人不推荐对平台做对比,每个平台都有它自己的使命和价值,侧重点也都不一样,还是需要客观看待。

3 个赞

独木不成林呀,百花齐放百家争鸣才是学人乐见的。

老大
尽量可以参考
这个网站
http://zyybgjsjk.com/home/home-page
中医疫病古籍整理数据库

很有特色,条文分布,清晰明了