电子书:四庫提要目次 爬取自 「全國漢籍データベース 四庫提要」 。不过原站点维护的这份 「四库提要」 似乎有一些简单字的错误,本贴致力于进行校对。
目前已经发现的错字:
- 永乐大典 误为 永乐天典
- 然 误为 燃
更多错字见楼下讨论。
已构建 「四库提要资料库」:
电子书:四庫提要目次 爬取自 「全國漢籍データベース 四庫提要」 。不过原站点维护的这份 「四库提要」 似乎有一些简单字的错误,本贴致力于进行校对。
目前已经发现的错字:
更多错字见楼下讨论。
已构建 「四库提要资料库」:
我用了最为偷懒(不百分百靠谱)的方法:搜索引擎。
现在校对,遇到生僻字都是百度上下文看看,能否直接从网页粘贴复制该字过来。
百度1、3,都是“然”。其余貌似更明显
这样子更为严谨靠谱。论坛有人上传过,不知道是何时制作。
现在有文本比对工具,例如有个网站(商业性质)
如是古籍数字化工具平台 (rushi-ai.net)
其实文本比对、文本对齐有成熟的开源代码,双语的都有
双语对齐工具网页版 mlbee(任意语言对) + litbee + radiobee + ezbee - 软件经验交流展望 - FreeMdict Forum
如果把几个不同来源(包括简繁体)的文本比对,不仅可以校错字;还能把简体版的标点符号批量移到本文档来,再比对句读进行校读,可以省很多事。
可惜我编程水平太差,不会改造。
“燃”字出现12次,以下9次当作“然”字。这是一种怪异的错误。
四庫提要 集部十四 別集類十四 蓮峯集 十卷 考周密浩燃齋雅談云。
四庫提要 集部十八 別集類十八 蘭臯集 三卷 燃皆晚年所自删定。
四庫提要 集部二十一 別集類二十一 羽庭集 六卷 於明祖顯燃指斥。
四庫提要 經部三十三 五經總義類 羣經補義 五卷 燃其他條。則多典確不磨。
四庫提要 集部二十四 別集類二十四 篁墩集 九十三卷 燃名從主人。實為古義。
陳秋岩詩集 二卷 燃不著其名。
東澗集 十四卷 燃舂容和雅。
泠燃齋集 八卷
紫山大全集 燃今民將在
民国二十二年的上海商务印书馆,那是万有文库本吗?万有文库本刚好是用句读的。你有兴趣可以对一下tmzn的万有文库本《四库提要》。
超过50年了,哪里还有版权。大概打字的日本人不熟悉古汉语,所以搞错了。
这些错误多数出在集部,集部书多,可能校对这部分的人比较粗心。
官网什么地方说是民国二十二年的上海商务印书馆本?有链接吗?
有意思,谷歌复核,这一年商务的版本就是万有文库版。
四库全书总目提要.三十
作者:(清)永瑢等编;
出版社:商务印书馆
出版时间:1931
ISBN/ISSN:
丛书名:万有文库
分类号:Z121.6
页数:120页
知道了来历,就比较放心。民国时期的句读,即使不是名家弄的,也不至于太差。而且还有图像电子版可以核对。
3353〜4490 1137页
31〜40册 9册
1137页/9=126
和《万有文库》每册的页数相当,应该就是《万有文库》本。
《万有文库》本薄,比较便宜,可能一再重印的,出版年份有点差异,未必是错误。
日本这个《四库提要》,可以在网站直接检索:
全國漢籍データベース 四庫提要
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/
直接在原站检索,做校对和做记录是比较方便的。
我想到“舂容”很容易错成“春容”,就用“春容”随手搜了一下。
《汉语大词典》
【舂容】
(5)舒緩從容。元祖銘《徑山五峰·大人峰》詩:“五髻生雲雨,鎮踞何舂容。具此大人相,題為大人峰。”明胡應麟《詩藪·近體下》:“至意當含蓄,語務舂容,則二者一律也。”清厲鶚《東城雜記·叶居仲》:“若公之詩文,尤舂容浩瀚。”
(6)閑雅。清邵玘《浣溪沙·秋閨》詞:“西風依約到簾櫳,晚妝情態儘舂容。”
找到一个错误:
集部三 別集類三
追昔遊集 三卷
然春容恬雅。無雕琢細碎之習。(校记:“春容”当作“舂容”。)
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0315701.html
这个电子版四库全书(殿本)的四库提要也错了,不过《追昔遊集》书前的提要没错,中华老版浙本的图像也没错。
两个“梅嚴”当作“梅巖”。
梅嚴文集 十卷
宋胡次焱撰。次焱字濟鼎。號梅嚴。
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0344601.html
“廣面川學海”当作“廣百川學海”。
廣面川學海 無卷數
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0274502.html
“華禮集部”当作“華禮部集”。
華禮集部 八卷
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0393004.html
“福”(U+FA1B)应改成“福”。
福建通志 七十八卷
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0148202.html
“庭韓”当作“庭幃”。
庭韓雜錄 二卷
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0261503.html
下列二“益(U+FA17)”应改为“益”。
益部談資 三卷
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0153101.html
益部方物略記 一卷
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0152201.html
是兼容字。日本汉字。你不改也行。我改是为了便于检索。
我自己根据Unicode资料做过数据库。
这些异常是通过比对不同版本的词头而发现的。
U+E、U+F的字,可以用Emeditor的macro查。论坛有人写过帖子。
基本汉字 [\x{3007}\x{4e00}-\x{9fff}]
扩展A区 [\x{3400}-\x{4DBF}]
扩展B区 [\x{20000}-\x{2A6DF}]
扩展C区 [\x{2A700}-\x{2B73F}]
扩展D区 [\x{2B740}-\x{2B81F}]
扩展E区 [\x{2B820}-\x{2CEA1}]
扩展F区 [\x{2CEB0}-\x{2EBE0}]
扩展G区 [\x{30000}-\x{3134A}]
兼容 [\x{F900}-\x{FAD9}]
兼容扩展 [\x{2F800}-\x{2FA1D}]
部首扩展 [\x{2E80}-\x{2EF3}]
注音 [\x{3105}-\x{312F}]
笔画 [\x{31C0}-\x{31E3}]
康熙部首 [\x{2F00}-\x{2FD5}]
注音扩展 [\x{31A0}-\x{31BA}]
私用SSP [\x{E000}-\x{F8FF}]
私用PUA-A [\x{F0000}-\x{FFFFF}]
私用PUA-B [\x{100000}-\x{10FFFF}]
日本人打字的资料,当然会出现日本汉字。还有别的日本汉字。有的我随手改了,没有记录。
正文未必需要改,但是我做的是资料库,词头不用规范汉字,很难检索的。
福、益直接从日本汉字替换成规范汉字,不可能会出问题。不必一一看了。
我发现的还有:
精(U+FA1D)=精
靖(U+FA1C)=靖
这些可以用佛爷做的叶典mdx查到,都说是兼容字。
兼容 [\x{F900}-\x{FAD9}]
兼容扩展 [\x{2F800}-\x{2FA1D}]
上面的方法是 @jcz777发的,本坛首屈一指的Emeditor专家。看起来似乎是正则,可以配合macro用。
我还没试过,细节也许需要琢磨。你可以另外发个帖请教jcz777细节。这个应该对很多书友有用。
其实整个日本汉字替换表出来,可以一次过替换:
Emeditor实现快速词典校对操作
textpro也有这种替换表。原理很简单,操作不难,不过要有耐心做替换表。
用老马的textforever也可以操作,还是需要替换表。
这种常用字,确实是应该改的。
我制作mdx替换香港用字时,也是手动一个个来,不懂如何批量替换。
我记得我查过这些符号,有的是图像,除非你使用图像,否则无法补。
浙本图像似乎没有缺字,可能日本人认为打不出来,就用缺字符号。假如刻本的字能打出来,其实直接补上就可以。加校记当然是好的。
〖毛詩說 二卷〗
周弁殷哻夏收之類
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0035803.html
“哻”(同鼾),《汇订》552作“冔”。四库本作“{口日/于}”,即“冔”字。
@feiwu
汉籍本缺此字,亦当改为“冔”。
东里书斋本是“冔”,不误。
按:本坛有个简体版《四库提要》mdx,根据钱氏藏书版改错。这个mdx的这个字是对的。所以这个版本值得利用。钱氏版与网上流传的国学网版doc同源。质量颇高,补上缺字后,挺好用。
https://downloads.freemdict.com/100G_Super_Big_Collection/汉语/文学/
《四库全书总目提要》改错以及重新排版v2.mdx
右禮類通體之屬 按:“通體”当作“通禮”。
http://kanji.zinbun.kyoto-u.ac.jp/db-machine/ShikoTeiyo/0044002.html
那当然是日本人弄错了,原来的异体字看着像这个字。
做这个对日本人来说,真是难度爆表了,有错真不足为奇。
你有兴趣可以另开一个帖,看看大家是否可以合力搜集到一些比较好的资料。
我见过一些比较可靠的资料。不过经、史、子、集四部里,我对经部的了解其实最少。
日本内阁文库藏本的重栞宋本十三經注疏PDF是我见过最为清晰的版本了,但是需要加工。
我用PDFPatcher导出黑白底层、然后ComicEnhancerPro把重栞宋本十三經注疏中的 论语第一册 切割为单页pdf
145.pdf (16.9 MB)