ocr的文字和图像对照就有意义。
ctext(背后是哈佛)连刻本古籍都ocr,ocr错得一塌糊涂。但是这些ocr的文字不是用来阅读的,是用来定位图像的。
检索比较可能ocr正确的词,定位到图像,对照图像修改需要引用的文字。
随用随改,有用到的部分才改,不可能整本书改完再用。
ocr的文字和图像对照就有意义。
ctext(背后是哈佛)连刻本古籍都ocr,ocr错得一塌糊涂。但是这些ocr的文字不是用来阅读的,是用来定位图像的。
检索比较可能ocr正确的词,定位到图像,对照图像修改需要引用的文字。
随用随改,有用到的部分才改,不可能整本书改完再用。
刚装了Pleco,看到了汉语大词典,现在要$50,请教下买回来是离线词典吗?要是在线的就不打算买了。
嗯,是離線而用的。
在Pleco, 教育部字典(簡稱MOE ),我記得是免費的。
我也裝了 Kroll的 classical Chinese dictionary (中英)和 Grand Ricci(中法),雖然我不會法語,但有足夠的英文底子,大多也看得懂
,因為已經知道釋文的語境。Kroll 的優點是準確的英文翻譯,Ricci字典學問深,可以跟中文字典做互補。
實際上,所有古代漢語字典都是一種翻譯,漢漢字典不是例外。只不過漢漢字典,表面上、字體上不是翻譯所以可以擺脫做翻譯的責任(王力是對古漢語、現代漢語的差距很敏感);有的東西從外語角度看更清楚。
我发现这版有些词头的简体没改过来或者没合并上,比如“铁炮”“鐵砲”两个两个词头同时存在,排版不同内容一样;比如“決裂”的订补二部分词头是“决裂”,导致如果不开简繁通搜,可能会缺内容。
还有更加离谱的情况,goldendict里,不开通搜,“群岛”、“ 羣島”两个词头出来的是订补一内容,“群島”是原文。而这两者释义内容都不完整:
“群”字的混乱源于大陆/香港/台湾繁体规定不同,由此发散,在“眾/衆”“床/牀”“線/綫”等等相关的词头上也发现了诸多意想不到的惊喜 机器转简繁害人不浅啊!
看来汉语大词典的乱象丛生很牛逼啊, 原文是简体的为嘛要转为繁体,词典到底是简体还是繁体,到底是大陆出的还是港台出的? 看你们的回帖感觉很乱啊, 还有论坛那个发现三卷本的帖子
据我所知(可能有误):汉语大词典是纯正的大陆词典,词头和古文例句是繁体字,其他部分是简体字。目前的mdx主要出自汉语大词典光盘,有两个订补我不太清楚来源(我有一个文字PDF版本,不知道是不是数据来源)。光盘有1.0、2.0、3.0三个版本,前两个版本都是正常的简繁,第三个版本是官方的繁体版,而官方繁体版里本身就有转换错误没有校对的繁体字。十几年前曾经提取2.0版本的某个前辈(可能是这些MDX简介里的G&E)不知出于什么原因自行做了简繁转换,而像999阿弥陀佛做的是直接从3.0提取,再把订补里多的东西导进去,所以数据相对较全,但也有点混乱。
总之,23年就能看到新版汉大了,到时候这种乱象应该就能告一段落啦
原版确实有引证:
台灣的教育部重編國語辭典修訂本更新了「讕言」的解釋:
我認為是比較準確的,作者可能出於謙虛,稱書只是讕言。
有人知道落的是什麼字嗎?
差真多!底本文字辨識、轉換出差錯?
这个看来是最佳方案
佛陀的精神虽然可佳,但他的词典我个人确实是一本也不敢用的。
哪有完美的词典啊
所有的电子词典都是各种各样的瑕疵
是啊,任何事物都不完美。有问题请指出,全盘否定恐怕太简单粗暴了。佛兄有不少词典我用着挺好,他的高产与共享精神更是让人敬佩。
没啥吧,可能我个人需求没那么多,仅需要的几本又有更好选择而已,不必争论。