《汉语大词典》三卷本,哇呀呀

tsiank后来不是又更新过mdd吗,有3G多,你没下载过吗?

1 个赞

我看到有一个没压缩的3g mdd,还有一些压缩有分件的mdd,还以为是同样的mdd,不知道3g的是更新版。

不知道源文件是否一样,应该研究一下。

只是浏览文件夹,没有和书友讨论,就如暗中摸索。谢谢告知。

3 个赞

你看一下这两个帖子,我也没下载。不用客气,当年你对汉大的版本分析对我帮助很大!
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12395&extra=
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=17072&highlight=

1 个赞

本坛这个3.44g没压缩的mdd很清晰啊!sxingbai兄假如没有,绝对值得收藏研究。虽然很耗时间,我想我要重做ocr了。

我用getdict 2.6版解压了mdd,查看了《汉语大词典05》166这一页。现在把mdd这一页的png上载于此,各位书友可以和上面的同页pdf比较。

用finereader打开,报告为300dpi。不是高清600dpi,但是是真的清晰版,不是用comicviewenhancer调整出来的伪清晰版。

才来几天,就找到找了几年的东西。每天都有惊喜,以为不会再有新发现了,马上又有更新的发现。

3 个赞

ocr是用来提取词头?

1 个赞

词头应该已经大致齐全,有缺也不多。

ocr的目的是检索正文。mdict似乎只能检索词条,我自己做的Access资料库就可以选择检索词条或正文。

这样的大工具书,能够检索正文,是很有用的。有些有用的资料,用词头未必检索得到。

而且文本版的词典是从光盘提取的,有些资料不齐。

ocr会有不少错误,文本版会有缺漏,二者可以互补。

1 个赞

平典、深蓝都可以全文搜索

1 个赞

这里的「调整」就是说更改DPI?

平典、深蓝我都没试过。没兴趣试付费软件。

我检索的第一选择是自己集成了资料的Access资料库,毕竟可以随心所欲地调整程式,增加资料。

第二选择是Goldendict,不过很少用。

1 个赞

依我个人的浅见,扫描图像时用的dpi才是真的dpi,名副其实。

用comicviewenhancer可以调整色度或图像大小,这样调整出来的图像,在finereader里也可能显示为600dpi,但是这是假dpi。假的无法弄假成真。

依我个人的经验,用comicviewenhancer自动调整图像转存为jpg,有一些作用,但是有局限。高手假如不用自动调整,自己设置参数,可能效果会好一点,但也有局限。

字太小的图像调整大小,对ocr会有一点帮助,但调得太大,可能反而有反效果。

这个mdd的质量真不错,在Acdsee中放大看,仍然显得清晰,其源文件可能是高清图像。

承蒙sxingbai兄提示,去看了tsiank的帖子,第二帖说:

原圖像版第二卷0851頁下半部分內容缺失,感謝sky66網友提供此完整頁。如果向原mdd文件中加入此页,那么就需要重新打包上传mdd文件(3.44G),为了省事,此页单独制作成“漢語大詞典圖像版.1.mdd”文件,与原mdd配合使用。

经查,0851页下半部分确实是空白的。本坛并无“汉语大词典图像版.1.mdd”文件。

如果书友有这个版本的2-0851页,请补充。

大概不会在分卷压缩包内吧?有下载过分卷压缩包的书友请说一说。

假如真地找不到,就用djvu版的2-0851页,将就使用,我把djvu版的2-0651页贴在这里:

用getdict转出的mdx文本中“又”字头的词有几个(又且、又作別論、又及、又弱一个、又生一秦)指向0851a.png。然未见0851a.png,大概在1.mdd内。

另外:{足存}字的页码(DCD199458)错了,应该是:10\0458(DCD100458)。

3 个赞

补丁页我收藏的有,明天发给你。
你所说的那些词,图像版应该是漏了。下面是我转制的汉大与图像版的词头对比(335884 个相同行,14983 个重要的左边独有行,14391 个重要右边独有行,11239 个重要差异行,18420 个差异部分)

汉大图像版词头-我的汉大词头.txt (14.3 MB)
有一些差异属于字体问题,很烦人。
图像版有14处类似“猛(¥089)”的词头。

1 个赞

“又”字头的几个词(又且、又作別論、又及、又弱一个、又生一秦)本来应该指向0851.png,大概因为原图像缺下半部,所以改为指向补丁。假如替换了新的完整的0851.png,改为指向0851.png就行。

参看此帖

{足存}字改一下页码就行。

当然,我主要用自己的资料库,导入索引后,已经改了。我不常用mdict,只是发现了问题,就提出来讨论,提醒大家注意。

这些有“(”的字头我会查一下看是什么:劈(¥009)。可以借此机会稍作整理。

你用来做对比的是哪个mdict版的文字版?光盘2版还是3版?

我的版因为统一了异体字,应该不会有那么多差异。等清理完了再用Access的query查一查。

你列的图像版缺的词头,有些是《汉语大词典》光盘2.0自己加的,《汉语大词典》没有。光盘的编者把GBK汉字有而《汉语大词典》没有的字,收了一些进光盘。

光盘编者自己加的字,可以不管,假如要加进《汉语大词典》mdict,可以放在附录。

1 个赞

下载到了,谢谢提示

不必客气。假如发现问题也请提出来讨论。借此机会整理一下数据。

应该是在你的提醒下以2.0为底本综合当时能找到的所有版本制成的。时间太长,都忘了

3 个赞

查改这14个有“(”的字头,居然花了一个早上。把查改的结果上载于此,供书友参考。

suoyin-note.txt (1.3 KB)

1 个赞

多谢,辛苦了!
漢語大詞典圖像版.1.mdd (163.6 KB)

2 个赞

谢兄费心。这个补丁内只有一个H020851a.png,与原来只有上半部的0851图像对比,发现不是同一版本。这个H020851a.png应该和djvu同源,没有这样清晰。但是总算凑齐能用了。

有一疑问请教:我看到有书友说“订补二”,这是说《汉语大词典订补》出了第二个纸质版本,因此有另一个电子本,还是《汉语大词典订补》只有一种纸质版本,但是有书友做出了不同的电子本?

我没做过mdict电子书,向来只用getdict分解mdx。现在我假如要微调这个mdx的索引,再重新编译mdx,应该用哪个版本的mdx builder才能和Goldendict兼容?在哪里可以下载这种兼容Goldendict的编译器?

1 个赞

订补一和订补二是两本书:订补一有少许错误,去年做了一些勘误,但不彻底;订补二是我一页一页复制的,没多大问题。
mdx builder不用最新版,用版本3就能与gd兼容

1 个赞