《中国古代史教程》朱绍侯、龚留柱主编（TXT、双层PDF版）

hardylau · 2024 年12 月 17 日 12:58

把楼主的txt格式重新制作epub格式，带封面和脚注，简单排版：
中国古代史教程（朱绍侯主编）.epub (1.2 MB)

mixivivo · 2025 年2 月 24 日 02:48

分享一本我不久前OCR的电子书，它算比较简明的古籍介绍类图书，虽然功力不是很深，但对普通人来说，比书目答问、四库提要这些更有阅读趣味和价值。

识别时分别使用了合合OCR和百度高精度OCR两种工具，把它们的识别结果对照纠错，最后用黑马校对软件扫了一遍。我相信文字准确度是比较高的，但错误在所难免，欢迎指正纠谬。

原始图像版 pdf 可以在这里下载：读古指南 ——五百要籍简介 - Anna’s Archive

读古指南：五百要籍简介马子华温功义编著.txt (1.0 MB)

HIGH98 · 2025 年2 月 24 日 06:18

有友人学习历史专业读到某最高学府博士，我这乡野村夫也来体验一下读古籍的感觉2333333

mixivivo · 2025 年4 月 23 日 06:41

最近校改订正了一下徐中约《中国近代史》TXT电子版当中的文字讹误，目前的改动有200余处。采取的办法有三种：1）用Gemini 2.5 flash大模型一章章查错；2）黑马校对扫了一遍；3）把我以前阅读pdf版做的笔记中标注的错误合并过来。

校订的原则是主要只更正明显的文字错误，事实错误、表达不妥当等问题并不处理，这是作者和出版社的职责，而且个人业余要订正的话工作量太大，要耗费很多精力和时间。具体改动之处可以在 https://github.com/mahavivo/Book 查看diff。

在这里也上传一份：

中国近代史徐中约著 - 2025-04-22.txt (2.2 MB)

将作大匠 · 2025 年7 月 2 日 10:49

贴主pdf原档可以传一下吗？我得空重新核校一下

mixivivo · 2025 年7 月 2 日 11:09

你说的是哪本书？《中国古代史教程》的原始pdf文件不是在2楼吗？

将作大匠 · 2025 年7 月 2 日 11:15

不是双层PDF，原始未覆盖扫描文本层的文档，清晰度会高一点，我再扫校一遍

mixivivo · 2025 年7 月 2 日 11:46

清晰度没变化，我用 acrobat pro 自动OCR设定的采样率是600dpi，远超原图像本身的清晰度了。如果你确实想要最“原始”的pdf，在 anna’s archive 搜“中国古代史教程”即可。

mixivivo · 2025 年7 月 2 日 11:54

我猜你觉得上册的清晰度不行，那是因为原始pdf文档就是那样，我在ocr之前，到处搜过，看能不能找到更佳的图像底本，但没有。

将作大匠 · 2025 年7 月 3 日 00:35

嘻嘻，被你言中了。我就是安娜上找的文本，上冊確實清晰度不太可，有點影響閱讀。另外我覺得篇幅相當的趙軼峰版《中國古代史》也是一個選擇。

将作大匠 · 2025 年11 月 22 日 08:57

哥们做的很用心啊，我用你的校本再同扫描全能王OCR文本对校了一遍，修正的地方好像连五十处都不到。附上合校稿件，WPS审阅模块点击【拒绝对文档所做的所有修订】即可得到我的校后稿。

文字文稿=校订古下.docx (870.7 KB)

文字文稿=校订古上.docx (646.9 KB)

mixivivo · 2025 年11 月 22 日 09:08

谢谢，辛苦了，我这里没有wps，用不了审阅模块，能不能直接发一下最终校稿，我可以用beyond compare等对比变更。

mixivivo · 2025 年11 月 22 日 09:14

~~哦，不用了，word可以显示最终定稿。~~

wps和微软word还是有兼容性问题，发一下最终稿好了。

将作大匠 · 2025 年11 月 22 日 09:20

个别标点符号可能还得细核一下，尤其是“-”、“——”、“—”之类的不是很统一

将作大匠 · 2025 年11 月 22 日 09:24

好的，你看下，这是净稿——

文字文稿=校订古上（净稿）.docx (595.6 KB)

文字文稿=校订古下（净稿）.docx (696.4 KB)

将作大匠 · 2025 年11 月 22 日 09:28

有一页正文有脚注标号而页底没脚注内容的，我自作聪明给补上了

mixivivo · 2025 年11 月 22 日 10:48

我对比校核了一下，这些错误找的很好。不过个别地方是原文有误，比如：

过去的史学著作，大都认为元朝“漆黑一团”。现在则普遍认为，元朝虽然充满民族和阶级压迫，但社会经济仍有不同程度的恢复和发展，如纸币在全国的统一使用，南北海运的开辟和驿站体系的建立，棉花的推广和棉织业的兴起，【南北海运的开辟和】海外贸易的发展等。这些均具有划时代的意义。

“南北海运的开辟和”跟前面一句重复，所以删了。

正文有脚注标号而页底没脚注的，我把正文当中的符号删了。这是陈亮的话，指涉明确，不给具体出处也没啥问题。

还有一些文本在后来的版本中已经纠正过，例如一些“入人”错误，还有下列各处等：

①《后汉书·种暠列传》
①[宋]郑樵：《通志·艺术传·马钧传》，中华书局1987年版，第2910页。
①《旧唐书·李勣（jì）传》，中华书局1975年版。

贴一个订正过的新版本，主帖也相应更新。

中国古代史教程朱绍侯、龚留柱主编.txt (2.2 MB)

xianjue114 · 2025 年11 月 22 日 11:19

书籍封面写的是王绍侯……

将作大匠 · 2025 年11 月 23 日 04:26

不得不说，2025年对于AI领域而言，真的是堪比“寒武纪物种大爆发”的一年，各种场景的应用工具各擅胜场，尤其是OCR这块，百度这个小巧的paddleocr-vl真的惊艳到我了，生僻字还是有点像素模糊的情况下，竟然都准确识别到位了，尽管这个模型还有轻微的幻觉，但不碍于我对它的好感，真的比mineru之流的好太多了

mixivivo · 2025 年11 月 23 日 04:43

PaddleOCR -VL在识别中文生僻字上实际还欠点火候，需要再迭代若干次。MinerU应该是基于原版PaddleOCR（非VL）微调整合的，没有自己的foundation模型。

估计明年年中就会有一个性能较佳的1-3b激活参数的开源OCR模型，识别准确率不低于合合、百度高精度、夸克等，在数据中心租一张H100等级的GPU，一天时间可以文本化上百甚至几百本书。

《中国古代史教程》 朱绍侯、龚留柱 主编 （TXT、双层PDF版）

《中国古代史教程》朱绍侯、龚留柱主编（TXT、双层PDF版）