新出的古籍数字化的平台：看典古籍

看典古籍 · 2023 年9 月 3 日 08:49

您的建议太棒了，我有考虑开发一个校对系统对接在OCR和数字化之后，但是一直没动手，诚然，一个人做这所有的东西比较耗时（也是懒的借口），但是经过您这么一说这些问题是确实存在同时也是痛点所在，我会认真考虑您的建议的。
再次感谢您的建议，也祝您万事顺心！
茫茫前路，我将上下求索。

看典古籍 · 2023 年9 月 7 日 15:51

9月7日新增功能，单图在线智能辅助校对功能初版上线了，欢迎体验：《使用文档》收集需求和反馈中…

endnote · 2023 年9 月 9 日 04:30

从
https://cloud.freemdict.com/index.php/s/pdJqZRz7tYsiHM3
摘出一页，实验了一下

00081920×2507 889 KB

并进行校对后的结果为：

翰林侍講學士朝請大夫守國子祭酒上柱國賜紫金魚
袋臣邢昺等奉
勑校定
序解
疏
正義曰案漢書藝文志云論語者孔子應荅弟子時人
及弟子相與言而接聞於夫子之語也當時弟子各有
所記夫子旣卒門人相與輯而論纂故謂之論語然則夫子
旣終微言已絕弟子恐離
居已後各生異見而聖言永滅故
相與論撰因採時賢及古明王之語合成一法謂之論語也
鄭玄云仲弓子游子夏等撰定論者綸也輪也
理也次也撰
也以此書可以經綸世務故曰綸也圓轉無窮故曰輪也藴
含萬理故曰理也篇章有序故曰次也羣賢集定故曰撰也
鄭玄周禮注云荅述曰語以此書所載皆仲尼應荅弟子及
時人之辭故曰語而在論下者必經論撰然後載之以示非
妄謬也以其口相傳授故經林火書而獨存也漢興傳者則有
三家魯論語者魯人所傳卽今所行篇次是也常山都尉龔

单字的准确度其实挺不错，发现的几个问题：

竖行没有完全从右至左，需要上移一行（校对操作简单），可能是这一页的单栏大多数是双竖行，单栏里面的顺序还是从左到右。
字与字之间、或者字与边缘的间隔划分，个别时候有问题，导致时不时多出来一个横线或者“一”字，需要删除。
对像素宽度的限制为3000像素，上面的PDF单页导出来后只有100+K，但像素超过3000，缩小像素以符合要求，但文件膨胀到1.4M，不知道这样是否节约了占用资源。建议200K以下的图片可以放宽像素要求

看典古籍 · 2023 年9 月 9 日 12:38

感谢您的试用和反馈，这里的几个问题：
1、文本行的语序问题，这个问题我会想方案处理，其实语序问题在OCR里面是一直有的
2、这个就是单个字的检测误判，这个是需要比较多数据量去训练的，还得长期积累数据在训练模型去解决了
3、长宽限制问题，现在这个我已经放开到7000了，像素越大对计算的要求比较大，所以前期限制的比较小，现在7000px的话我想常规的图像都能处理了
最后，再次感谢您！

endnote · 2023 年9 月 9 日 14:23

再次试验了一页
0009.rar (124.2 KB)
效果不如上一页。我自己分析的主要原因是：
目前的模型参数对于刻本古籍各个竖行的划分不太好，比如

这个划分把左右邻近的行的部分也包括了进来，导致黄色圈那里被识别成“言”字混入这一竖行。

我技术小白，不太懂模型的细节，但我认为如果竖行的划分、包括字与字之间的划分如果不首先解决的话，校对所反馈的数据对于模型的改进作用有限，因为所识别的图片上明明是有“言”字的，反馈的又让模型困惑地去掉了“言”字。字与字之间的划分不正确也是如此，比如上个回帖中的焚字被识别成了“林火”。归根结底，目前大的问题还是在划分上。

所以，建议模型的训练分为两个阶段：
第一个是解决竖行的划分、字与字之间的划分问题，收集反馈，训练改进模型参数。考虑到刻本本身不太规整、加上扫描页面可能歪歪斜斜等，最好不要用四条直线圈成一个长方形，而是先逐个字划线，然后组成一个竖行，这样左右竖行的关系也好确定（远期是去除书耳、版心等等整个版面的处理）。
第二个才是单个字的识别准确性问题，这个反馈越多，效果自然而然就会越好。最好想办法提供将“林火”本来两个单字方框合并的操作。

看典古籍 · 2023 年9 月 10 日 11:55

感谢反馈，您说的没错，模型的识别效果和训练的数据是正相关的，我训练数据中大部分都是原色的那种古籍扫描图像，这种白底黑字的大分辨率的比较少，就导致对于这种图像的识别效果比较差，识别是一个顺序过程，从文本行检测到最终的识别输出，前向检测效果差的话后续结果也会比较差，我已经记录您反馈的这部分问题了，后续我会进行多方面数据的收集和加入到训练中去学习，提高识别能力。

最好不要用四条直线圈成一个长方形，而是先逐个字划线，然后组成一个竖行，

这个其实在单字检测OCR中是已经实现了的，通过每个字的坐标信息去还原文本行，但是也会有一些问题，面对常规标准图像时效果还可以，但是在古籍中有比较多的是大字列里面有两列小字的这种，效果上会差一些，最终语序效果也不如文本行-》结果的模式，还是需要在实际中进行实验并改进了。

两个单字方框合并的操作。

这个功能我后续会实现出来，单字合并和文本行合并两个功能
最后，非常感谢您的试用和您宝贵的建议，您的反馈我都有进行记录并会认真考虑的！

看典古籍 · 2023 年9 月 23 日 12:05

9月调整，欢迎体验看典古籍www.kandianguji.com/

1、【搜索】版块更名为【全文检索】

2、【善本大全】版块卡片高度对齐

3、阅读页文本添加加粗，根据识别数据按照可信度分不同颜色展示

4、阅读页新增【书内检索】功能，可在当前古籍中检索数据

5、阅读页新增【编辑】功能，开放用户校对编辑权限

6、阅读页分页添加输入跳转功能

7、【全文检索】检索结果正文内容加粗显示，检索词高亮显示，检索结果页顶部新增检索操作功能，更方便使用

8、【数字化】版块新增自定义图像尺寸调整

9、【数字化】版块新增用户【全书校对】功能，可在线点校自己的古籍，支持导出全书txt、json、图像以及双层PDF（可选择可复制文本层）

10、【古籍OCR】版块新增图像尺寸自定义功能

11、【用户】版块新增【找回密码】、【昵称修改】、【密码修改】功能

12、全站通知邮箱与反馈邮箱切换为admin@kandianguji.com

13、其它已知bug修复

say65 · 2023 年9 月 23 日 12:29

标点可以识别了，但还是不高，“『』”基本上都是识别对反。

看典古籍 · 2023 年9 月 23 日 12:34

标点在下个版本会修正完成，模型迭代比较慢

say65 · 2023 年9 月 23 日 12:40

非常感谢您提供免费好用的网站。

看典古籍 · 2023 年9 月 23 日 12:50

感谢使用，有人用就是我继续的动力

say65 · 2023 年9 月 23 日 12:56

不能支持分栏页面的识别。一个页面有两个栏目，比如现在很多辞典。

看典古籍 · 2023 年9 月 23 日 13:01

已记录，后续支持！

etanalyst · 2023 年10 月 7 日 03:33

大神，全文检索，能否直接
200到300字的，甚至400到500字
分条文显示

比如检索麻黄，直接显示包含麻黄的条文，300条，从1,2,3序号排列，一目了然，便于治学

看典古籍 · 2023 年10 月 7 日 05:10

感谢您的反馈，这个功能可以做，已经记录了，后续将会支持

etanalyst · 2023 年10 月 7 日 09:13

谢谢您。

其实就是分条文，
还能预览长度几百字符，包含关键字的长句。

功德无量

amob · 2023 年10 月 7 日 11:16

今日正式上线的新古籍平台：全球漢籍影像開放集成系統 – Image Index of Global Chinese Ancient Books (wenxianxue.cn)

宣传字眼有些夸张，只是数据库式的提供跳转链接，不存储图像，功能还有待完善。相比之下，看典古籍更好用。

看典古籍 · 2023 年10 月 7 日 12:27

感谢您的推荐和您对看典古籍的肯定，我个人不推荐对平台做对比，每个平台都有它自己的使命和价值，侧重点也都不一样，还是需要客观看待。

etanalyst · 2023 年10 月 8 日 01:18

独木不成林呀，百花齐放百家争鸣才是学人乐见的。

etanalyst · 2023 年10 月 22 日 03:31

老大
尽量可以参考
这个网站
http://zyybgjsjk.com/home/home-page
中医疫病古籍整理数据库

很有特色，条文分布，清晰明了

新出的古籍数字化的平台：看典古籍

从 https://cloud.freemdict.com/index.php/s/pdJqZRz7tYsiHM3 摘出一页，实验了一下 00081920×2507 889 KB 并进行校对后的结果为：

从
https://cloud.freemdict.com/index.php/s/pdJqZRz7tYsiHM3
摘出一页，实验了一下

00081920×2507 889 KB

并进行校对后的结果为：