《中国古代史教程》 朱绍侯、龚留柱 主编 (TXT、双层PDF版)

我自己OCR的一套中国史教科书,就目前所见,是最适合作为大学本科课本的。篇幅适中(全文大概80万字),没采用马列史观,对史实不溢美,也不丑诋,比较客观公允平和。

这本书配合徐中约的《中国近代史》,中国历史的基本框架就搭起来了,至于细节,是可以无限逼近的。想了解,Google,问chatgpt,读大部头,专史,都可以。

OCR的结果,我相信是比较准确的,甚至可以形成一套方法论:1)清晰扫描的图像;2)百度网盘手工“提取文字”识别;3)目视检测,纠正一些明显的错误;4)用abbyy再ocr一遍,将其结果与百度ocr结果对比校核;5)用黑马校对扫一遍全文查错。

《中国古代史教程》豆瓣链接:https://book.douban.com/subject/6105294/ 此处有不少网友评价,可供进一步参考。

1)在论坛校改、编辑txt文档比较麻烦,我创建了一个github repo:GitHub - mahavivo/History-of-Ancient-China: 中国古代史教程(上下册) 朱绍侯、龚留柱 主编
以后小的更改就在那里操作了,积聚到一定程度再在这里更新。

2)制作了一个方便阅读的章节尾注版——合并页面,把每页底部的脚注改成每章结束的尾注:

中国古代史教程 朱绍侯、龚留柱 主编.txt (2.2 MB)

3)原始分页版(非专业目的不再建议使用):

中国古代史教程(上下册) 朱绍侯、龚留柱 主编.txt (2.2 MB)

14 个赞

双层PDF版:

中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed).part1.rar (20 MB)
中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed).part2.rar (20 MB)
中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed).part3.rar (1.6 MB)

——再提供一个版本,是我阅读时做过标注笔记的PDF,偶尔也修正一下原书中的错误,不想读的人可以快速翻阅一下大致了解本书的特色。

中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed、标注).part1.rar (20 MB)
中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed、标注).part2.rar (20 MB)
中国古代史教程 (上下册) 朱绍侯、龚留柱 主编(OCRed、标注).part3.rar (2.4 MB)

16 个赞

感谢分享,很清晰很好的版本,下载浏览一下。

用的是winRAR?这边Directory Opus无法解压,显示压缩包压缩文件损坏

什么压缩软件都行,前提是你要把所有part放一起然后解压part1文件

这种基础我还是知道的,我问作者是不是用了winrar这个软件压缩的,我这边用DirectoryOpus自带的解压能看到文件,但是一解压就出错

使用 7zip 解压,没有出现问题。

我用bandizip解压正常

破案了,下载时有损坏,重下一个就正常解压了

OCR 后的 PDF 有视图大小不统一的问题,其来源应该是 z-lib 上两个同名文件,我统一无损缩放到同一宽度,保持页面大小一致,有需要可以下载:

中国古代史教程.pdf

1 个赞

用新的OCR引擎又识别了一遍,文字对比后发现了一些讹误,已经一一更正。建议感兴趣者重新下载主帖里更新过的TXT文件。

1 个赞

徐中约近代也上传吧,这样帖子内容才完备,也方便兴致者。

徐的书网上到处都有,不过我确实整理过一个方便使用的单独txt文件,就应你约传到这里好了。

中国近代史 徐中约 著.txt (2.1 MB)

2 个赞

我因为非古文的,都习惯性听如今接近真人声音的TTS,所以发的只适合听文本的整理格式后的文字,一般习惯用工具自动整理下格式,经楼主提醒,发现自动工具会把生僻字去掉,所以手动整理了下,生僻字不会消失了,更不影响阅读或者TTS朗读。喜欢听txt的可以试一试,不建议重制PDF的使用我发的txt,完美版的看楼主发在各楼的。感谢认真细致的楼主发贴。
中国古代史教程(上下册) 朱绍侯、龚留柱.txt (2.2 MB)
中国近代史 蒋廷黻.txt (336.4 KB)
中国近代史 徐中约 港.txt (2.1 MB)
中国近代史 徐中约 著.txt (2.2 MB)

我贴的原始txt文本,所有的空格、空行都有意义,或者便于区分章节阅读浏览,或者是严格遵照原书的版面分页,以有利于进一步加工(比如版面还原制作pdf),并不宜随意删除。还有某些字,属于常用字范围之外,整理、处理不当,就是乱码。总之,建议使用我的原始文件,其他的本人并不负责。

看来我得把话说明白了,你搞的这些是没啥意义的东西,删空行,合并段落,转pdf这些很多人都会,我不这么做是有理由的,保持文本的准确,信息完整(包括原始分页),便于使用(搜索,兼容各种平台),有利进一步修订,以及未来的各种格式加工。

上面你转的“中国古代史教程.txt“,自己检查下以下段落,看看“𢀛”字还在不在:

(1)对𢀛方的战争
在武丁卜辞中,伐𢀛方的记载最多,共有300多次,其频率之高在古代社会是十分罕见的。商朝经常出动的兵员人数一般在3000~5000人左右,这种战争规模在古代早期社会也是很大的。在频繁的打击下,𢀛方终于被商王朝征服,所以在武丁以后的卜辞中,便不再出现𢀛方为灾的记录。
(2)对土方的战争
土方位于𢀛方的东面。卜辞记载有一次土方曾与𢀛方一起入侵商朝北部的一个附属小国沚,沚君只好派人向武丁求救,5日之内连续报告了好几次,可见当时情况危急。与土方的战争最终也以商朝的胜利而结束,在武丁以后的卜辞中,已不见土方的名字。有学者认为,卜辞中的土方,可能就是传世文献中记载的古杜国,而他恰恰就是被武丁所灭掉的一个北方国家①。

类似的讹误还有若干。我花了很多功夫才把这些文字订正准确,被人再次弄成别字、乱码在网上流传,误人子弟,真高兴不起来。

像徐中约的《中国近代史》,网上早就有制作相当完善的文本pdf,目录完整,版面精美,你发个“顺手转”的pdf,没有图片,没有目录,还观感不错,到底谁有需求,有什么价值?

自己喜欢折腾,自己干自己保留好了,画蛇添足,代大匠斫,结果谬种流传,扰乱信息,不是什么助益别人的行为方式。

我贴一下别人制作精良的《中国近代史》PDF版和Word版,它们在网上公开传播十多年了。

徐中约-中国近代史(Word经典珍藏).docx (9.4 MB)
中国近代史.pdf (13.1 MB)

6 个赞

如果有人想继续加工《中国古代史教程》,建议可以试一下把文本里面的脚注转化成每章结束的尾注,同时合并段落,这样读起来会比较连贯一些。它可能需要手工调整,目前我没想出来程序自动化处理的办法。

2 个赞

再附送几本制作比较精良的中国史书籍。

中国近代史 蒋廷黻 著.pdf (2.1 MB)
郭廷以《近代中国史纲》.docx (1.1 MB)
唐德刚:晚清七十年(台湾远流版).docx (924.6 KB)
国史大纲 钱穆.docx (3.7 MB)

5 个赞

你说得还真对,的确是这样,我只是方便听而整理,因为基本不考虑看的问题,并没有想那么多。还是你的想法和做法全面。我会重新编辑我贴的帖子,并注明问题。给你点赞!

1 个赞

制作了一个方便阅读的章节尾注版,主要更改如下:合并页面,把每页底部的脚注改成每章结束的尾注,且校正若干新发现的文字、格式上的错误。

下载文本见主帖。

1 个赞