转发:安娜档案馆收到有人送的754万本非小说类中文电子书,来自读秀,正在征求OCR识别

看到有人发的消息后转发

6 个赞

同链接中给出的链接,发现了一些东东,比如中文词典及庄子诠释书籍方面的评价:

辭海:主打現代卻過時了。 教育部重編國語辭典:收詞不多,例句多生造,輕聲詞注音錯誤極多,其他注音錯誤也不少(比如把「劉禪」的「禪」就標錯了,看來編纂者不知道還有個「劉封」)。 現代漢語詞典:定位欠準,詞量硬傷,幾乎沒例句(有也是生造句),好處是注音正確率高、有詞性。 新華字典:小學生都嫌的垃圾。語文作業每個字要組三個詞,這垃圾常組不出。 中華字海:無限類推簡化字,收字標準過於寬鬆,反正毛病不少。

精讀:王力 + 故訓 + 康煕 泛讀:漢大詞 + 漢大字 + 辭源 替補:中大辭 + 大漢和 偏門:異體 + 現漢大 + 近漢大

[愛好者類]

[莊子新釋 張默生]

× 齊魯 1993 , × 新世界出版社 2007 ,樂天 1971 ,大夏 1978 大陸版雖然都是簡化字的,不過有張翰勳於 1989 年的校補。此書文字通透,用哲學化的語言來詮釋莊子的思想。

[白話譯解莊子 葉玉麟]

× 大達圖書供應社, × 天津古籍 1987 版,香港實用書局 1961 版,華聯 1975,最新的 × 科學技術文獻出版社 2007 版是簡化字版 解釋非常詳細,校刊也花了不少功夫,解完又譯,保證清楚。遺憾的是,此書僅選取了部分篇目。原版排版比較擠,讀起來不太舒服,簡化字版沒看,擔心存在錯誤。如果要挑一本給習慣繁體直排的人當隨手翻看的讀物,這本絕對是首選。

[莊子淺注 曹礎基]

× 中華書局 1982 初版, × 2007 增訂重排 初版較差,增訂重排後還不錯。音義該註的基本都註了,註文不帶出處,所以非常短,適合速食。可惜是簡化字的。如果要挑一本給語文較好的中學生,這本最宜。不過需要注意的是,他以王孝魚點校的莊子集釋爲底本,底本不好,錯誤難免多些,語文好的大學生還是找個好本子看罷(語文不好的反正也不會看)。

[莊子詮評 方勇 陸永品]

× 巴蜀書社 1998 初版, × 2007 修訂 入門級巔峯,註釋詳細,但很多沒標出處。兩個作者在訓詁方面下了不少功夫,而且一作對歷代莊學的研究比較多,作爲一般讀本,此書相當足夠了。

[常用類]

[莊子集釋 郭慶藩]

× 中國書店 1988 (影印埽葉山房本), × 上海古籍 續修四庫全書 2002 (影 × 光緒思賢講舍本) 原書影印,沒什麼可吐槽(爲什麼我總想吐槽)。

[莊子集釋 郭慶藩集釋 王孝魚點校]

× 中華書局 新編諸子集成 1961, 2004, 2012 ,中華書局 中華國學文庫 2013 (簡化字),頂州文化 2001 ,萬卷樓圖書有限公司 1993, 2007 ,世界書局 1971 (題校正莊子集釋),華正 2004 這是目前讀莊治莊最常用的本子,但主校本爲世德堂本,問題很多——個人認爲學界亟待出現一本「新校莊子集釋」。就算拋開校勘,此書仍不是好讀本——實在太冗繁了,而且不知道是我個人錯覺,註釋選得很「隔」,簡直存心讓人看不懂(好吧我知道你就是不喜歡郭慶藩)。

[莊子集解 王先謙]

× 上海古籍 續修四庫全書 2002 (影 × 宣統思賢書局刻本), × 中華書局 1954 (影 × 商務 萬有文庫國學基本叢書 1934), × 成都古籍 1988 (影商務 萬有文庫國學基本叢書 1934), × 上海書店 1988 (影 × 世界書局 1935 ), × 廣陵古籍 1991 (影 × 廣益書局 1936 ),現代化點校本有 × 中華書局 新編諸子集成 1987 (沈嘯寰點校,和劉武的補正編成一本), × 三秦 2005 (陳凡點校,簡化字),上海古籍 2013 (方勇點校,看版權頁應該是簡化字的),樂天 1970 (附在莊子連詞今訓之後), 東大 2004 ,黃山 2008 ,漢京文化 1988 (與劉武的補正編成一本),臺灣商務 1967 ,華正 1975 ,蘭臺 1971 我比較喜歡王先謙的書,普遍簡明不簡陋。就是細節問題顯得有點多。

[莊子集解內篇補正 王先謙集解 劉武補正]

商務 1949 (樣本),古籍出版社 1958 , × 中華書局 新編諸子集成 1987 (與集解編成一本),木鐸 1988 ,漢京文化 1988 (與集解編成一本) 補正非常詳細,基本上能夠保持王書風貌,沒有過於囉嗦,文字也比集釋通透。

[莊子纂箋 錢穆]

版本很多,知道的有三民 1974 , × 東大圖書 1985, 1993, 2006, × 聯經 1995 ,三聯 2010 , × 九州 2011 等;又,初版應爲香港 1951 版,臺灣初版爲 1969 版,疑似自行出版 錢穆認爲馬其昶的莊子註是好本子,就用來敷衍。註釋方面,被王叔岷評爲在他之前的近人裏收集資料最備的。

[莊子校詮 王叔岷]

× 中研院史語所集刊 1988, 1994 ,× 中華書局 2007 此書重「校」,所以比較多的提到版本問題。中華書局定價比較搶錢。 讓人比較生氣的是,正文錯漏很多,標點符號亂用,還經常漏標點。

[莊子纂要 方勇]

× 學苑 2012 以覆宋本南華眞經註疏爲底本,按時間順序加入作者收集到的歷代校、詁、解,另外還加了一堆論文目錄之類的東西,相當於莊學工具書。出版社沒改原稿,可能是因爲懶得看?總而言之,這就是方便到爆的一本書。

莊子彙校考訂.蔣門馬

知识的广泛传播、低成本传播是好事。

以后的分布式系统、分布式存储、分布式计算、分布式网络发展起来,现有的知识产权保护模式有必要做出改变了,需要新的激励方式鼓励知识创造。

网上貌似有些人担心这些中文资料到了国外,会被训练成多么牛叉的AI语言模型,纯粹是多虑了。AI语言模型的质量并不是输入的资料量越多就越好

不知道谁上传的,350TB的数据,只可惜要一年后开放,不知道为什么要加这个限制,不知道 LibGen 会不会收录这批数据,安娜还没有经过考验。

网上的讨论可以看这里:

2 个赞

让不懂中文的外国人来整理中文电子书,要ocr,还要把数据和书对起来,整个检索系统可能得翻新,花一年不足为奇。一年未必做得完,

安娜现在是在拿这批书与想要数据的AI公司讨价还价。我给你一批书,你得把ocr后的数据给我。AI公司想要书做中文大数据,但是肯定不乐意给出自己处理过的数据。现在先不发布,假如想要的公司多,就可能谈出好条件。都发布了,可以自由下载,那就不必谈了。

我感觉这对安娜馆会是一个转捩点,对世界的电子书圈子也是大事啊。在一年后,想想看,中文电子书的数量赶上英文电子书了?中文圈子的人都冲到那里去检索中文资料了?

读秀数据开放后,安娜肯定比 ZLib 受欢迎,只是安娜还没有被美国政府制裁过,不知道能不能长久,ZLib 已经开始接受版权投诉了。AI 公司真看不上这批数据,没有版权根本不敢用,路子野的自己能搞定数据。

2 个赞

书上架了,有500万个文件。具体有多少本?不知道。自己去看看吧。我把能找到的镜像都列出来了。

主站+官方镜像 3个
zh开头镜像 2个
网上读书园地 1个
csdn博客 2个

安娜档案馆(Anna’s Archive)新增几百万中文书

1 个赞