我自己OCR的一套中国史教科书,就目前所见,是最适合作为大学本科课本的。篇幅适中(全文大概80万字),没采用马列史观,对史实不溢美,也不丑诋,比较客观公允平和。
这本书配合徐中约的《中国近代史》,中国历史的基本框架就搭起来了,至于细节,是可以无限逼近的。想了解,Google,问chatgpt,读大部头,专史,都可以。
OCR的结果,我相信是比较准确的,甚至可以形成一套方法论:1)清晰扫描的图像;2)百度网盘手工“提取文字”识别;3)目视检测,纠正一些明显的错误;4)用abbyy再ocr一遍,将其结果与百度ocr结果对比校核;5)用黑马校对扫一遍全文查错。
《中国古代史教程》豆瓣链接:https://book.douban.com/subject/6105294/ 此处有不少网友评价,可供进一步参考。
1)在论坛校改、编辑txt文档比较麻烦,我创建了一个github repo:GitHub - mahavivo/History-of-Ancient-China: 中国古代史教程(上下册) 朱绍侯、龚留柱 主编
以后小的更改就在那里操作了,积聚到一定程度再在这里更新。
2)制作了一个方便阅读的章节尾注版——合并页面,把每页底部的脚注改成每章结束的尾注:
中国古代史教程 朱绍侯、龚留柱 主编.txt (2.2 MB)
3)原始分页版(非专业目的不再建议使用):
中国古代史教程(上下册) 朱绍侯、龚留柱 主编.txt (2.2 MB)
14 个赞
用的是winRAR?这边Directory Opus无法解压,显示压缩包压缩文件损坏
什么压缩软件都行,前提是你要把所有part放一起然后解压part1文件
这种基础我还是知道的,我问作者是不是用了winrar这个软件压缩的,我这边用DirectoryOpus自带的解压能看到文件,但是一解压就出错
OCR 后的 PDF 有视图大小不统一的问题,其来源应该是 z-lib 上两个同名文件,我统一无损缩放到同一宽度,保持页面大小一致,有需要可以下载:
中国古代史教程.pdf
1 个赞
用新的OCR引擎又识别了一遍,文字对比后发现了一些讹误,已经一一更正。建议感兴趣者重新下载主帖里更新过的TXT文件。
1 个赞
徐中约近代也上传吧,这样帖子内容才完备,也方便兴致者。
徐的书网上到处都有,不过我确实整理过一个方便使用的单独txt文件,就应你约传到这里好了。
中国近代史 徐中约 著.txt (2.1 MB)
2 个赞
downa
14
我因为非古文的,都习惯性听如今接近真人声音的TTS,所以发的只适合听文本的整理格式后的文字,一般习惯用工具自动整理下格式,经楼主提醒,发现自动工具会把生僻字去掉,所以手动整理了下,生僻字不会消失了,更不影响阅读或者TTS朗读。喜欢听txt的可以试一试,不建议重制PDF的使用我发的txt,完美版的看楼主发在各楼的。感谢认真细致的楼主发贴。
中国古代史教程(上下册) 朱绍侯、龚留柱.txt (2.2 MB)
中国近代史 蒋廷黻.txt (336.4 KB)
中国近代史 徐中约 港.txt (2.1 MB)
中国近代史 徐中约 著.txt (2.2 MB)
我贴的原始txt文本,所有的空格、空行都有意义,或者便于区分章节阅读浏览,或者是严格遵照原书的版面分页,以有利于进一步加工(比如版面还原制作pdf),并不宜随意删除。还有某些字,属于常用字范围之外,整理、处理不当,就是乱码。总之,建议使用我的原始文件,其他的本人并不负责。
看来我得把话说明白了,你搞的这些是没啥意义的东西,删空行,合并段落,转pdf这些很多人都会,我不这么做是有理由的,保持文本的准确,信息完整(包括原始分页),便于使用(搜索,兼容各种平台),有利进一步修订,以及未来的各种格式加工。
上面你转的“中国古代史教程.txt“,自己检查下以下段落,看看“𢀛”字还在不在:
(1)对𢀛方的战争
在武丁卜辞中,伐𢀛方的记载最多,共有300多次,其频率之高在古代社会是十分罕见的。商朝经常出动的兵员人数一般在3000~5000人左右,这种战争规模在古代早期社会也是很大的。在频繁的打击下,𢀛方终于被商王朝征服,所以在武丁以后的卜辞中,便不再出现𢀛方为灾的记录。
(2)对土方的战争
土方位于𢀛方的东面。卜辞记载有一次土方曾与𢀛方一起入侵商朝北部的一个附属小国沚,沚君只好派人向武丁求救,5日之内连续报告了好几次,可见当时情况危急。与土方的战争最终也以商朝的胜利而结束,在武丁以后的卜辞中,已不见土方的名字。有学者认为,卜辞中的土方,可能就是传世文献中记载的古杜国,而他恰恰就是被武丁所灭掉的一个北方国家①。
类似的讹误还有若干。我花了很多功夫才把这些文字订正准确,被人再次弄成别字、乱码在网上流传,误人子弟,真高兴不起来。
像徐中约的《中国近代史》,网上早就有制作相当完善的文本pdf,目录完整,版面精美,你发个“顺手转”的pdf,没有图片,没有目录,还观感不错,到底谁有需求,有什么价值?
自己喜欢折腾,自己干自己保留好了,画蛇添足,代大匠斫,结果谬种流传,扰乱信息,不是什么助益别人的行为方式。
我贴一下别人制作精良的《中国近代史》PDF版和Word版,它们在网上公开传播十多年了。
徐中约-中国近代史(Word经典珍藏).docx (9.4 MB)
中国近代史.pdf (13.1 MB)
6 个赞
如果有人想继续加工《中国古代史教程》,建议可以试一下把文本里面的脚注转化成每章结束的尾注,同时合并段落,这样读起来会比较连贯一些。它可能需要手工调整,目前我没想出来程序自动化处理的办法。
2 个赞
downa
20
你说得还真对,的确是这样,我只是方便听而整理,因为基本不考虑看的问题,并没有想那么多。还是你的想法和做法全面。我会重新编辑我贴的帖子,并注明问题。给你点赞!
1 个赞
制作了一个方便阅读的章节尾注版,主要更改如下:合并页面,把每页底部的脚注改成每章结束的尾注,且校正若干新发现的文字、格式上的错误。
下载文本见主帖。
1 个赞