新出的古籍数字化的平台:看典古籍

看典古籍:https://www.kandianguji.com/
功能比较多,免费开放了OCR、数字化功能
古籍数量也比较多,筛选起来比较方便
最好用的还是全文检索功能,可以在古籍中搜想看的关键词,精确到页

9月7日新增功能,单图在线智能辅助校对功能初版上线了,欢迎体验:《使用文档》收集需求和反馈中…

13 个赞

谢谢仁兄的网站

不过搜索
麻黄
癫痫
这样的条目
结果还是偏少
希望有条件能进一步
优化

总之
很不错
感恩感激感谢

个人是以
博览医书的这个收费数据库
做比较。有失公允。还是非常不错的。继续优化就可以。目前是个人研究中医的主力

嘉惠後學!感謝!

全文检索功能

希望搜索以后
条目数量越来越多
越来越精细

感谢您的使用和反馈,网站主要还是收集多方面的古籍,目前并没有明确侧重点(比如中医方面的),我有大量的古籍资源在做数字化并展示出来,还是需要一些时间的,您可以持续关注!

针对搜索一块的优化还在进行中,当数据量起来之后检索功能的好处就会体现出来,后续还会加入精确检索模式和模糊检索模式等功能,我会尽最大努力去优化和完善!

1 个赞

感谢您的使用!

功德无量

广种福田,一定持续关注

2 个赞

中华书局带有书名线和人名线可以OCR?

这个您最好直接在网站OCR版块上传一张图像试一下识别效果,写法样式很多样,具体还得已识别效果为准,在这里我也没法明确回答!

我上传几张杨伯峻春秋左传注,书名线和人名线不受干扰,文字识别率很高,标点识别率很差。不过免费能达到这样已经很好了,谢谢看典古籍。

2 个赞

假如只拿现代的电脑打字排印本测试,和finereader相比,可能看不出特色。

用古代刻本图像测试,不知效果如何?

ctext的刻本图像ocr,一般会弄得一塌糊涂。

我还没时间测试,但注意到这个网站和刻本图像放在一起的文本很准确。也许是校对过的。

直接ocr出来,完全没校对的,能有多准确?这是看点。

假如拿手写字的古籍(如《四库全书》)的图像来ocr,又如何?这个难度又更高了,finereader会完全翻车。但是《四库全书》电子版是ocr出来的,出版方用的特制ocr软件就能够准确识别手写字。

感谢使用和反馈,OCR还在不断更新迭代中,我相信会越来越好的,符号问题在后续版本中会解决的!

1 个赞

您好,刻本图像是可以识别的,网站上现在展示的内容都是完全无校对的,直接通过OCR识别转换后展示出来的,网站上识别的效果代表了OCR的识别效果,OCR还在不断优化迭代,我相信识别效果会越来越好的!

1 个赞

有书名线和人名线,finereader识别不了。

1 个赞

其后台应该是人工智能的 pytorch 模型,逐个字识别模式下可以看每个字符OCR的置信度,识别手写字符是人工智能的老课题了,并不像 Abbyy 那样依赖印刷体。


很好的网站。对OCR这块,建议站长考虑:

一、不知道能否加上用户的 Human Feedback?尤其是那些置信度低的字符识别结果,允许用户在线输入该字正确的结果。古籍的OCR与普通文档不一样,有很多生僻字、异体字,置信度在0.9以下很可能就不正确了(手写体置信度可以低一些)。

二、古籍的OCR图片往往扫描得不太规范,页面四周各种大小不等的黑边,在OCR之前如果能预处理一下,自动判断页面内容的四周范围(不知能否从 Human Feedback 学习),把不需要识别的书耳(标注卷数页码的)、版心(中间装订的鱼尾等部分)排除,效果会更好。

1 个赞

更进一步的,借鉴早期AI OCR识别名片的方法,即将识别结果与网络收集的人名、电话号码等数据匹配,可以大大提升准确性。

回到古籍OCR的场景,比如现在要OCR《史记会注考证》的刻本,那如果能先给模型输入《史记》《汉书》等繁体字文本,应该也有助于提升OCR《史记会注考证》的识别准确度。

是的,感谢您的使用反馈。关于您说的两点建议非常棒
一、Human Feedback。目前我已经做了用户修改内容的相关功能,但是网站目前是刚上线的一个状态,用户量较少。在我看来,首先,一套完备的与用户关联的校对模式比较复杂,我要确定没有问题才会推出来;其次就是让用户参与进来会消耗用户的时间和精力,但是又没有回报,让用户形成一种“白打工”的心理状态,要让用户“为爱发电”,在目前我看来是不可行的。
二、预处理。这一点我已经考虑到并已经实现了初版应用:只关注需要关注的信息,去除杂余信息。在古籍中,版式、风格等等属性很多,比较复杂,在通用性上要差一些,我还在不断进行完善,力求完美(起码要能在90%的图像上通过验证)。
三、模板预匹配。这一点我是没有考虑到的,我将在后续进行尝试,看效果如何,如果可以,我将会采纳您的宝贵建议。
最后,表达对您的感谢!

2 个赞

上面的建议不一定马上就要着手实现。不过,问题和痛点是实实在在的。

个人觉得目前优先级高的,可能首先是改进单个用户的体验。
比如单页OCR后,校对的页面布局(不考虑适配手机屏幕),如何设置一个置信度门槛,只显示低于门槛的疑难字,以方便反馈;如何方便用户导出整个识别结果,或者允许用户一次性上传多张图片;如何保存用户的反馈,并动态用于训练模型提升后续的OCR准确度(是否允许用户对不同书籍的处理设置编号、以便将反馈分开保存、这本书的反馈数据只用于训练同本书后面的OCR)。等等。
用户的获得感增加了,自然也就愿意提供Feedback了,因为自己的Feedback有助于获得后续页面更准确的OCR结果。

总之,功能的增强什么时候去实现,孰先孰后,是需要与整个网站的发展方向、时间硬件资源等通盘考虑的。祝成功~

1 个赞