《中国古代史教程》 朱绍侯、龚留柱 主编 (TXT、双层PDF版)

易经的阳爻和阴爻不知最新版修改没,原书用的符号有问题
⚊⚋

这里尚未修改,看了一下,的确存在问题,用的表示符号不规范。

——ps,修正重传了。

有几处“入贡”错成“人贡”
P708正文里注释4的标记缺失

1 个赞

谢谢。

“入”和“人”这种OCR错误原始文档很多,看来没改干净。

这里的注释标记缺失有点奇怪了,因为我用python批量修改时,先要校验正文标记和脚注标记数量一样多,也许不小心漏掉忘了更正。

P279注释1,《后汉书·种暠列传》,脱暠字,
不过这句引文似乎是来自《党锢列传》

原书本身写作时出现的失误原则上我并不修改,比如有一处说新石器时代考古遗址里有蚕豆、花生,蚕豆源自地中海领域,花生来自美洲,明显它们是错误的,都原样保留了。

明显的错别字,标点错误(缺失)则会改一下。

1 个赞

主帖编辑次数超限了,过段时间再修正更新。

王玉哲《中国断代史·中华远古史》:与河姆渡文化一样,马家浜文化、良渚文化都发现有稻谷遗存。良渚文化的稻谷已有粳稻与籼稻两个品种,同时还有蚕豆、花生、芝麻、甜瓜等多种农作物的种子出土。这又从一个侧面说明了这时太湖流域的原始农业得到了迅速的发展。(注释:见牟永抗、魏正瑾:《马家浜文化和良渚文化——太湖流域原始文化的分期问题》,《文物》1978年第4期。)可见这应是出土考察的一个发现,不能说是错误吧?当然如何解释是个问题。
又查了下《中国大百科全书》,“良渚文化”条是这样表述的:“社会经济 良渚文化居民以农业生产为主,主要作物是水稻。据在钱山漾发现的稻谷鉴定,有粳稻和籼稻两种。在钱山漾、水田畈等遗址中还发现有花生、芝麻、蚕豆、甜瓜等植物种子,有人认为是当时的农作物,也有人对其出土层位和鉴定结果有所怀疑。”应该说这是个有争议的问题。论坛有《中国考古学大辞典》,有兴趣者可以查查。我没用过这部辞典。

看了一下,“尾注版”很好!原文有页下注的pdf文档,ocr后的txt文件都有这类问题,如果能找到快速一次性修改的方法就好了,手动修改真的比较繁琐也容易出错。

有句话叫“尽信书不如无书”。考古领域,因为技术、水平不到位,放卫星的需要,民族主义意识影响,各种错误,胡说八道的东西多了去。蚕豆又名胡豆,可想而知来源为何,花生是哥伦布发现新大陆后才从美洲传播开来的。不过“良渚文化”没挖出iPhone,考古报告质量也算不错了。

2 个赞

如果真的对中国史前文明、文化感兴趣,刘莉、陈星灿写的《中国考古学:旧石器时代晚期到早期青铜时代》算是不错的书。

按章分割后的txt文件,把脚注批量转为尾注的代码。把全书分割成章,也可以写程序,因为比较简易,就不分享了。

import re

def process_footnotes(text):
    # 将文本按页面分割(两个连续的换行符)
    pages = re.split(r'\n\n(?=\S)', text)
    
    # 存储所有脚注和正文
    all_footnotes = []
    all_main_text = []
    
    # 处理每一页
    for i, page in enumerate(pages):
        # 分离正文和脚注
        footnotes = re.findall(r'^[\u2460-\u2473].*$', page, re.MULTILINE)
        main_text = re.sub(r'^[\u2460-\u2473].*$', '', page, flags=re.MULTILINE).strip()
        
        # 验证注解符号数量
        main_symbols = re.findall('[\u2460-\u2473]', main_text)
        foot_symbols = re.findall('[\u2460-\u2473]', '\n'.join(footnotes), re.MULTILINE)
        
        if len(main_symbols) != len(foot_symbols):
            print(f"警告:第 {i+1} 页的注解符号数量不匹配")
            print(f"页面内容:\n{page}\n")
            print(f"正文中的符号数量:{len(main_symbols)}")
            print(f"脚注中的符号数量:{len(foot_symbols)}")
            print("=" * 50)
        
        all_main_text.append(main_text)
        all_footnotes.extend(footnotes)
    
    # 处理正文
    new_note_count = 1
    def repl_func(match):
        nonlocal new_note_count
        new_symbol = f'[{new_note_count}]'
        new_note_count += 1
        return new_symbol
    
    processed_main_text = []
    for text in all_main_text:
        processed_text = re.sub(r'[\u2460-\u2473]', repl_func, text)
        processed_main_text.append(processed_text)
    
    # 处理脚注
    new_note_count = 1
    processed_footnotes = []
    for footnote in all_footnotes:
        # 处理一行中多个注释符号的情况
        while re.search(r'[\u2460-\u2473]', footnote):
            footnote = re.sub(r'[\u2460-\u2473]', lambda m: f'[{new_note_count}]', footnote, count=1)
            new_note_count += 1
        processed_footnotes.append(footnote)
    
    # 合并处理后的正文和脚注
    full_text = '\n\n\n'.join(processed_main_text)
    full_text += '\n\n' + '\n'.join(processed_footnotes)
    
    return full_text

# 读取文件
with open(r'c:\Users\xxx\Desktop\002\第一章.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 处理文本
processed_text = process_footnotes(text)

# 保存文件
with open(r'c:\Users\xxx\Desktop\002\第一章-output.txt', 'w', encoding='utf-8') as file:
    file.write(processed_text)

print("处理完成,结果已保存 output.txt。")

有“卷一”误作“卷—”的情况,破折号的一半

1 个赞

裴李岗—磁山文化,大汶口—龙山文化,马家滨—良渚文化,连接符误作一

1 个赞

谢谢纠谬。

在论坛校改、编辑txt文档比较麻烦,我创建了一个github repo:GitHub - mahavivo/History-of-Ancient-China: 中国古代史教程(上下册) 朱绍侯、龚留柱 主编
以后小的更改就在那里操作了,积聚到一定程度再在这里更新。

1 个赞

传入,误作传人
数过家门而不入,误作不人
攻入,误作攻人

1 个赞

确实那边更方便点

到不窋的孙子公刘时,窋误作密
𢀛方,误作舌方

谢谢。像以上的错误,很多要通读才能看出来,纯技术上比较难解决。我自己已经仔细看过一遍这本书,当下不耐烦再次通读了。

先做文本上的校正核对,等大致差不多了,可以考虑做成epub格式。

3 个赞

感謝各位,下载了统一页面尺寸的pdf,倾向于看双层pdf,不选择word或txt.