《中国古代史教程》 朱绍侯、龚留柱 主编 (TXT、双层PDF版)

把楼主的txt格式重新制作epub格式,带封面和脚注,简单排版:
中国古代史教程(朱绍侯 主编).epub (1.2 MB)

6 个赞

分享一本我不久前OCR的电子书,它算比较简明的古籍介绍类图书,虽然功力不是很深,但对普通人来说,比书目答问、四库提要这些更有阅读趣味和价值。

识别时分别使用了合合OCR和百度高精度OCR两种工具,把它们的识别结果对照纠错,最后用黑马校对软件扫了一遍。我相信文字准确度是比较高的,但错误在所难免,欢迎指正纠谬。

原始图像版 pdf 可以在这里下载:读古指南 ——五百要籍简介 - Anna’s Archive

读古指南:五百要籍简介 马子华 温功义 编著.txt (1.0 MB)

2 个赞

有友人学习历史专业读到某最高学府博士,我这乡野村夫也来体验一下读古籍的感觉2333333

最近校改订正了一下徐中约《中国近代史》TXT电子版当中的文字讹误,目前的改动有200余处。采取的办法有三种:1)用Gemini 2.5 flash大模型一章章查错;2)黑马校对扫了一遍;3)把我以前阅读pdf版做的笔记中标注的错误合并过来。

校订的原则是主要只更正明显的文字错误,事实错误、表达不妥当等问题并不处理,这是作者和出版社的职责,而且个人业余要订正的话工作量太大,要耗费很多精力和时间。具体改动之处可以在 https://github.com/mahavivo/Book 查看diff。

在这里也上传一份:

中国近代史 徐中约 著 - 2025-04-22.txt (2.2 MB)

2 个赞

贴主pdf原档可以传一下吗?我得空重新核校一下 :grinning_face_with_smiling_eyes:

你说的是哪本书? 《中国古代史教程》的原始pdf文件不是在2楼吗?

不是双层PDF,原始未覆盖扫描文本层的文档,清晰度会高一点,我再扫校一遍

清晰度没变化,我用 acrobat pro 自动OCR设定的采样率是600dpi,远超原图像本身的清晰度了。如果你确实想要最“原始”的pdf,在 anna’s archive 搜“中国古代史教程”即可。

我猜你觉得上册的清晰度不行,那是因为原始pdf文档就是那样,我在ocr之前,到处搜过,看能不能找到更佳的图像底本,但没有。

嘻嘻,被你言中了。我就是安娜上找的文本,上冊確實清晰度不太可,有點影響閱讀。另外我覺得篇幅相當的趙軼峰版《中國古代史》也是一個選擇。

哥们做的很用心啊,我用你的校本再同扫描全能王OCR文本对校了一遍,修正的地方好像连五十处都不到。附上合校稿件,WPS审阅模块点击【拒绝对文档所做的所有修订】即可得到我的校后稿。

文字文稿=校订古下.docx (870.7 KB)

文字文稿=校订古上.docx (646.9 KB)

2 个赞

谢谢,辛苦了,我这里没有wps,用不了审阅模块,能不能直接发一下最终校稿,我可以用beyond compare等对比变更。

哦,不用了,word可以显示最终定稿。

wps和微软word还是有兼容性问题,发一下最终稿好了。

个别标点符号可能还得细核一下,尤其是“-”、“——”、“—”之类的不是很统一

好的,你看下,这是净稿——

文字文稿=校订古上(净稿).docx (595.6 KB)

文字文稿=校订古下(净稿).docx (696.4 KB)

1 个赞

有一页正文有脚注标号而页底没脚注内容的,我自作聪明给补上了 :laughing:

我对比校核了一下,这些错误找的很好。不过个别地方是原文有误,比如:

过去的史学著作,大都认为元朝“漆黑一团”。现在则普遍认为,元朝虽然充满民族和阶级压迫,但社会经济仍有不同程度的恢复和发展,如纸币在全国的统一使用,南北海运的开辟和驿站体系的建立,棉花的推广和棉织业的兴起,【南北海运的开辟和】海外贸易的发展等。这些均具有划时代的意义。

“南北海运的开辟和”跟前面一句重复,所以删了。

正文有脚注标号而页底没脚注的,我把正文当中的符号删了。这是陈亮的话,指涉明确,不给具体出处也没啥问题。

还有一些文本在后来的版本中已经纠正过,例如一些“入人”错误,还有下列各处等:

①《后汉书·种暠列传》
①[宋]郑樵:《通志·艺术传·马钧传》,中华书局1987年版,第2910页。
①《旧唐书·李勣(jì)传》,中华书局1975年版。

贴一个订正过的新版本,主帖也相应更新。

中国古代史教程 朱绍侯、龚留柱 主编.txt (2.2 MB)

1 个赞

书籍封面写的是 王绍侯……

不得不说,2025年对于AI领域而言,真的是堪比“寒武纪物种大爆发”的一年,各种场景的应用工具各擅胜场,尤其是OCR这块,百度这个小巧的paddleocr-vl真的惊艳到我了,生僻字还是有点像素模糊的情况下,竟然都准确识别到位了,尽管这个模型还有轻微的幻觉,但不碍于我对它的好感,真的比mineru之流的好太多了 :face_savoring_food:

PaddleOCR -VL在识别中文生僻字上实际还欠点火候,需要再迭代若干次。MinerU应该是基于原版PaddleOCR(非VL)微调整合的,没有自己的foundation模型。

估计明年年中就会有一个性能较佳的1-3b激活参数的开源OCR模型,识别准确率不低于合合、百度高精度、夸克等,在数据中心租一张H100等级的GPU,一天时间可以文本化上百甚至几百本书。