易经的阳爻和阴爻不知最新版修改没,原书用的符号有问题
⚊⚋
这里尚未修改,看了一下,的确存在问题,用的表示符号不规范。
——ps,修正重传了。
有几处“入贡”错成“人贡”
P708正文里注释4的标记缺失
谢谢。
“入”和“人”这种OCR错误原始文档很多,看来没改干净。
这里的注释标记缺失有点奇怪了,因为我用python批量修改时,先要校验正文标记和脚注标记数量一样多,也许不小心漏掉忘了更正。
P279注释1,《后汉书·种暠列传》,脱暠字,
不过这句引文似乎是来自《党锢列传》
原书本身写作时出现的失误原则上我并不修改,比如有一处说新石器时代考古遗址里有蚕豆、花生,蚕豆源自地中海领域,花生来自美洲,明显它们是错误的,都原样保留了。
明显的错别字,标点错误(缺失)则会改一下。
主帖编辑次数超限了,过段时间再修正更新。
王玉哲《中国断代史·中华远古史》:与河姆渡文化一样,马家浜文化、良渚文化都发现有稻谷遗存。良渚文化的稻谷已有粳稻与籼稻两个品种,同时还有蚕豆、花生、芝麻、甜瓜等多种农作物的种子出土。这又从一个侧面说明了这时太湖流域的原始农业得到了迅速的发展。(注释:见牟永抗、魏正瑾:《马家浜文化和良渚文化——太湖流域原始文化的分期问题》,《文物》1978年第4期。)可见这应是出土考察的一个发现,不能说是错误吧?当然如何解释是个问题。
又查了下《中国大百科全书》,“良渚文化”条是这样表述的:“社会经济 良渚文化居民以农业生产为主,主要作物是水稻。据在钱山漾发现的稻谷鉴定,有粳稻和籼稻两种。在钱山漾、水田畈等遗址中还发现有花生、芝麻、蚕豆、甜瓜等植物种子,有人认为是当时的农作物,也有人对其出土层位和鉴定结果有所怀疑。”应该说这是个有争议的问题。论坛有《中国考古学大辞典》,有兴趣者可以查查。我没用过这部辞典。
看了一下,“尾注版”很好!原文有页下注的pdf文档,ocr后的txt文件都有这类问题,如果能找到快速一次性修改的方法就好了,手动修改真的比较繁琐也容易出错。
有句话叫“尽信书不如无书”。考古领域,因为技术、水平不到位,放卫星的需要,民族主义意识影响,各种错误,胡说八道的东西多了去。蚕豆又名胡豆,可想而知来源为何,花生是哥伦布发现新大陆后才从美洲传播开来的。不过“良渚文化”没挖出iPhone,考古报告质量也算不错了。
如果真的对中国史前文明、文化感兴趣,刘莉、陈星灿写的《中国考古学:旧石器时代晚期到早期青铜时代》算是不错的书。
按章分割后的txt文件,把脚注批量转为尾注的代码。把全书分割成章,也可以写程序,因为比较简易,就不分享了。
import re
def process_footnotes(text):
# 将文本按页面分割(两个连续的换行符)
pages = re.split(r'\n\n(?=\S)', text)
# 存储所有脚注和正文
all_footnotes = []
all_main_text = []
# 处理每一页
for i, page in enumerate(pages):
# 分离正文和脚注
footnotes = re.findall(r'^[\u2460-\u2473].*$', page, re.MULTILINE)
main_text = re.sub(r'^[\u2460-\u2473].*$', '', page, flags=re.MULTILINE).strip()
# 验证注解符号数量
main_symbols = re.findall('[\u2460-\u2473]', main_text)
foot_symbols = re.findall('[\u2460-\u2473]', '\n'.join(footnotes), re.MULTILINE)
if len(main_symbols) != len(foot_symbols):
print(f"警告:第 {i+1} 页的注解符号数量不匹配")
print(f"页面内容:\n{page}\n")
print(f"正文中的符号数量:{len(main_symbols)}")
print(f"脚注中的符号数量:{len(foot_symbols)}")
print("=" * 50)
all_main_text.append(main_text)
all_footnotes.extend(footnotes)
# 处理正文
new_note_count = 1
def repl_func(match):
nonlocal new_note_count
new_symbol = f'[{new_note_count}]'
new_note_count += 1
return new_symbol
processed_main_text = []
for text in all_main_text:
processed_text = re.sub(r'[\u2460-\u2473]', repl_func, text)
processed_main_text.append(processed_text)
# 处理脚注
new_note_count = 1
processed_footnotes = []
for footnote in all_footnotes:
# 处理一行中多个注释符号的情况
while re.search(r'[\u2460-\u2473]', footnote):
footnote = re.sub(r'[\u2460-\u2473]', lambda m: f'[{new_note_count}]', footnote, count=1)
new_note_count += 1
processed_footnotes.append(footnote)
# 合并处理后的正文和脚注
full_text = '\n\n\n'.join(processed_main_text)
full_text += '\n\n' + '\n'.join(processed_footnotes)
return full_text
# 读取文件
with open(r'c:\Users\xxx\Desktop\002\第一章.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 处理文本
processed_text = process_footnotes(text)
# 保存文件
with open(r'c:\Users\xxx\Desktop\002\第一章-output.txt', 'w', encoding='utf-8') as file:
file.write(processed_text)
print("处理完成,结果已保存 output.txt。")
有“卷一”误作“卷—”的情况,破折号的一半
裴李岗—磁山文化,大汶口—龙山文化,马家滨—良渚文化,连接符误作一
谢谢纠谬。
在论坛校改、编辑txt文档比较麻烦,我创建了一个github repo:GitHub - mahavivo/History-of-Ancient-China: 中国古代史教程(上下册) 朱绍侯、龚留柱 主编
以后小的更改就在那里操作了,积聚到一定程度再在这里更新。
传入,误作传人
数过家门而不入,误作不人
攻入,误作攻人
确实那边更方便点
到不窋的孙子公刘时,窋误作密
𢀛方,误作舌方
谢谢。像以上的错误,很多要通读才能看出来,纯技术上比较难解决。我自己已经仔细看过一遍这本书,当下不耐烦再次通读了。
先做文本上的校正核对,等大致差不多了,可以考虑做成epub格式。
感謝各位,下载了统一页面尺寸的pdf,倾向于看双层pdf,不选择word或txt.