漢語大詞典 修正(2020.10.05补链)

ocr的文字和图像对照就有意义。

ctext(背后是哈佛)连刻本古籍都ocr,ocr错得一塌糊涂。但是这些ocr的文字不是用来阅读的,是用来定位图像的。

检索比较可能ocr正确的词,定位到图像,对照图像修改需要引用的文字。

随用随改,有用到的部分才改,不可能整本书改完再用。

1 个赞

刚装了Pleco,看到了汉语大词典,现在要$50,请教下买回来是离线词典吗?要是在线的就不打算买了。

嗯,是離線而用的。

在Pleco, 教育部字典(簡稱MOE ),我記得是免費的。

我也裝了 Kroll的 classical Chinese dictionary (中英)和 Grand Ricci(中法),雖然我不會法語,但有足夠的英文底子,大多也看得懂
,因為已經知道釋文的語境。Kroll 的優點是準確的英文翻譯,Ricci字典學問深,可以跟中文字典做互補。

實際上,所有古代漢語字典都是一種翻譯,漢漢字典不是例外。只不過漢漢字典,表面上、字體上不是翻譯所以可以擺脫做翻譯的責任(王力是對古漢語、現代漢語的差距很敏感);有的東西從外語角度看更清楚。

2 个赞

我发现这版有些词头的简体没改过来或者没合并上,比如“铁炮”“鐵砲”两个两个词头同时存在,排版不同内容一样;比如“決裂”的订补二部分词头是“决裂”,导致如果不开简繁通搜,可能会缺内容。
还有更加离谱的情况,goldendict里,不开通搜,“群岛”、“ 羣島”两个词头出来的是订补一内容,“群島”是原文。而这两者释义内容都不完整:


羣字开头的几个词头都有这个问题,比如“羣魔亂舞”和“群魔亂舞”也有这个问题。
考虑到订补条目都是“羣”,我又查了下图像版,发现原文词头就是羣而不是群,当初给汉语大词典原文件作了简繁转换的人,用的工具应该是统一转成了台湾“正体”,这下反而“歪”了 :rofl:

1 个赞

“群”字的混乱源于大陆/香港/台湾繁体规定不同,由此发散,在“眾/衆”“床/牀”“線/綫”等等相关的词头上也发现了诸多意想不到的惊喜 :rofl: 机器转简繁害人不浅啊!

2 个赞

看来汉语大词典的乱象丛生很牛逼啊, 原文是简体的为嘛要转为繁体,词典到底是简体还是繁体,到底是大陆出的还是港台出的? 看你们的回帖感觉很乱啊, 还有论坛那个发现三卷本的帖子

2 个赞

据我所知(可能有误):汉语大词典是纯正的大陆词典,词头和古文例句是繁体字,其他部分是简体字。目前的mdx主要出自汉语大词典光盘,有两个订补我不太清楚来源(我有一个文字PDF版本,不知道是不是数据来源)。光盘有1.0、2.0、3.0三个版本,前两个版本都是正常的简繁,第三个版本是官方的繁体版,而官方繁体版里本身就有转换错误没有校对的繁体字。十几年前曾经提取2.0版本的某个前辈(可能是这些MDX简介里的G&E)不知出于什么原因自行做了简繁转换,而像999阿弥陀佛做的是直接从3.0提取,再把订补里多的东西导进去,所以数据相对较全,但也有点混乱。
总之,23年就能看到新版汉大了,到时候这种乱象应该就能告一段落啦 :rofl:

3 个赞

「讕言」的第二個解釋有無問題?沒有提供例句,無從考索。

原版确实有引证:
屏幕截图 2021-09-28 093011

3 个赞

台灣的教育部重編國語辭典修訂本更新了「讕言」的解釋:

  1. 書名。作者不詳,內容陳述人君法度。《漢書.卷三○.藝文志》:「《讕言》十(一)篇。」漢.班固.自注:「不知作者,陳人君法度。」

我認為是比較準確的,作者可能出於謙虛,稱書只是讕言。

艕

有人知道落的是什麼字嗎?

2 个赞

差真多!底本文字辨識、轉換出差錯?

2.0光盘版似乎还行,没那么离谱

这个看来是最佳方案

佛陀的精神虽然可佳,但他的词典我个人确实是一本也不敢用的。

3 个赞

哪有完美的词典啊
所有的电子词典都是各种各样的瑕疵

1 个赞

是啊,任何事物都不完美。有问题请指出,全盘否定恐怕太简单粗暴了。佛兄有不少词典我用着挺好,他的高产与共享精神更是让人敬佩。

5 个赞

没啥吧,可能我个人需求没那么多,仅需要的几本又有更好选择而已,不必争论。