把楼主的txt格式制作成了epub格式,改了几处网友指出的ocr错误,做了封面和脚注,做了简单排版:
中国古代史教程(朱绍侯 主编).epub (1.8 MB)
分享一本我不久前OCR的电子书,它算比较简明的古籍介绍类图书,虽然功力不是很深,但对普通人来说,比书目答问、四库提要这些更有阅读趣味和价值。
识别时分别使用了合合OCR和百度高精度OCR两种工具,把它们的识别结果对照纠错,最后用黑马校对软件扫了一遍。我相信文字准确度是比较高的,但错误在所难免,欢迎指正纠谬。
原始图像版 pdf 可以在这里下载:读古指南 ——五百要籍简介 - Anna’s Archive
读古指南:五百要籍简介 马子华 温功义 编著.txt (1.0 MB)
有友人学习历史专业读到某最高学府博士,我这乡野村夫也来体验一下读古籍的感觉2333333
最近校改订正了一下徐中约《中国近代史》TXT电子版当中的文字讹误,目前的改动有200余处。采取的办法有三种:1)用Gemini 2.5 flash大模型一章章查错;2)黑马校对扫了一遍;3)把我以前阅读pdf版做的笔记中标注的错误合并过来。
校订的原则是主要只更正明显的文字错误,事实错误、表达不妥当等问题并不处理,这是作者和出版社的职责,而且个人业余要订正的话工作量太大,要耗费很多精力和时间。具体改动之处可以在 https://github.com/mahavivo/Book
查看diff。
在这里也上传一份:
中国近代史 徐中约 著 - 2025-04-22.txt (2.2 MB)
贴主pdf原档可以传一下吗?我得空重新核校一下
你说的是哪本书? 《中国古代史教程》的原始pdf文件不是在2楼吗?
不是双层PDF,原始未覆盖扫描文本层的文档,清晰度会高一点,我再扫校一遍
清晰度没变化,我用 acrobat pro 自动OCR设定的采样率是600dpi,远超原图像本身的清晰度了。如果你确实想要最“原始”的pdf,在 anna’s archive 搜“中国古代史教程”即可。
我猜你觉得上册的清晰度不行,那是因为原始pdf文档就是那样,我在ocr之前,到处搜过,看能不能找到更佳的图像底本,但没有。
我用ES解压,正常。
用华为自带的,解压,立马提示“异常”。屡试不爽
嘻嘻,被你言中了。我就是安娜上找的文本,上冊確實清晰度不太可,有點影響閱讀。另外我覺得篇幅相當的趙軼峰版《中國古代史》也是一個選擇。