《汉语大词典》三卷本,哇呀呀

词头应该已经大致齐全,有缺也不多。

ocr的目的是检索正文。mdict似乎只能检索词条,我自己做的Access资料库就可以选择检索词条或正文。

这样的大工具书,能够检索正文,是很有用的。有些有用的资料,用词头未必检索得到。

而且文本版的词典是从光盘提取的,有些资料不齐。

ocr会有不少错误,文本版会有缺漏,二者可以互补。

1 个赞

平典、深蓝都可以全文搜索

1 个赞

这里的「调整」就是说更改DPI?

平典、深蓝我都没试过。没兴趣试付费软件。

我检索的第一选择是自己集成了资料的Access资料库,毕竟可以随心所欲地调整程式,增加资料。

第二选择是Goldendict,不过很少用。

1 个赞

依我个人的浅见,扫描图像时用的dpi才是真的dpi,名副其实。

用comicviewenhancer可以调整色度或图像大小,这样调整出来的图像,在finereader里也可能显示为600dpi,但是这是假dpi。假的无法弄假成真。

依我个人的经验,用comicviewenhancer自动调整图像转存为jpg,有一些作用,但是有局限。高手假如不用自动调整,自己设置参数,可能效果会好一点,但也有局限。

字太小的图像调整大小,对ocr会有一点帮助,但调得太大,可能反而有反效果。

这个mdd的质量真不错,在Acdsee中放大看,仍然显得清晰,其源文件可能是高清图像。

承蒙sxingbai兄提示,去看了tsiank的帖子,第二帖说:

原圖像版第二卷0851頁下半部分內容缺失,感謝sky66網友提供此完整頁。如果向原mdd文件中加入此页,那么就需要重新打包上传mdd文件(3.44G),为了省事,此页单独制作成“漢語大詞典圖像版.1.mdd”文件,与原mdd配合使用。

经查,0851页下半部分确实是空白的。本坛并无“汉语大词典图像版.1.mdd”文件。

如果书友有这个版本的2-0851页,请补充。

大概不会在分卷压缩包内吧?有下载过分卷压缩包的书友请说一说。

假如真地找不到,就用djvu版的2-0851页,将就使用,我把djvu版的2-0651页贴在这里:

用getdict转出的mdx文本中“又”字头的词有几个(又且、又作別論、又及、又弱一个、又生一秦)指向0851a.png。然未见0851a.png,大概在1.mdd内。

另外:{足存}字的页码(DCD199458)错了,应该是:10\0458(DCD100458)。

3 个赞

补丁页我收藏的有,明天发给你。
你所说的那些词,图像版应该是漏了。下面是我转制的汉大与图像版的词头对比(335884 个相同行,14983 个重要的左边独有行,14391 个重要右边独有行,11239 个重要差异行,18420 个差异部分)

汉大图像版词头-我的汉大词头.txt (14.3 MB)
有一些差异属于字体问题,很烦人。
图像版有14处类似“猛(¥089)”的词头。

1 个赞

“又”字头的几个词(又且、又作別論、又及、又弱一个、又生一秦)本来应该指向0851.png,大概因为原图像缺下半部,所以改为指向补丁。假如替换了新的完整的0851.png,改为指向0851.png就行。

参看此帖

{足存}字改一下页码就行。

当然,我主要用自己的资料库,导入索引后,已经改了。我不常用mdict,只是发现了问题,就提出来讨论,提醒大家注意。

这些有“(”的字头我会查一下看是什么:劈(¥009)。可以借此机会稍作整理。

你用来做对比的是哪个mdict版的文字版?光盘2版还是3版?

我的版因为统一了异体字,应该不会有那么多差异。等清理完了再用Access的query查一查。

你列的图像版缺的词头,有些是《汉语大词典》光盘2.0自己加的,《汉语大词典》没有。光盘的编者把GBK汉字有而《汉语大词典》没有的字,收了一些进光盘。

光盘编者自己加的字,可以不管,假如要加进《汉语大词典》mdict,可以放在附录。

1 个赞

下载到了,谢谢提示

不必客气。假如发现问题也请提出来讨论。借此机会整理一下数据。

应该是在你的提醒下以2.0为底本综合当时能找到的所有版本制成的。时间太长,都忘了

3 个赞

查改这14个有“(”的字头,居然花了一个早上。把查改的结果上载于此,供书友参考。

suoyin-note.txt (1.3 KB)

1 个赞

多谢,辛苦了!
漢語大詞典圖像版.1.mdd (163.6 KB)

2 个赞

谢兄费心。这个补丁内只有一个H020851a.png,与原来只有上半部的0851图像对比,发现不是同一版本。这个H020851a.png应该和djvu同源,没有这样清晰。但是总算凑齐能用了。

有一疑问请教:我看到有书友说“订补二”,这是说《汉语大词典订补》出了第二个纸质版本,因此有另一个电子本,还是《汉语大词典订补》只有一种纸质版本,但是有书友做出了不同的电子本?

我没做过mdict电子书,向来只用getdict分解mdx。现在我假如要微调这个mdx的索引,再重新编译mdx,应该用哪个版本的mdx builder才能和Goldendict兼容?在哪里可以下载这种兼容Goldendict的编译器?

1 个赞

订补一和订补二是两本书:订补一有少许错误,去年做了一些勘误,但不彻底;订补二是我一页一页复制的,没多大问题。
mdx builder不用最新版,用版本3就能与gd兼容

1 个赞

不知道跟sxingbai的數據和不和。
訂補二.zip (364.0 KB)

1 个赞

感谢Mastameta兄费心。所以这是sxingbai兄对自己的电子书的订补?

我有《汉语大词典订补》的纸质版,多年前又根据一个文本pdf导入资料库,似乎也不齐。最近看到有人说文本pdf是ocr的,不知是否如此。

在某处(忘了在哪里)又下载了一个mdx,可能就是sxingbai兄做的订补1,不过下载后并没有看。可以再研究一下。

订补是《汉语大词典》官方的订补,质量基本是可靠的,不是ocr,但有一些编码问题导致的错误,不算多。订补二是取自《〈汉语大词典〉研究》(商务出版社)中的订补部分。

1 个赞

原来如此,感谢兄答疑解惑。书友的引用语焉不详,我还疑惑是否有一本新书。

《汉语大词典》光盘2只收Gbk汉字,所以都可以检索。

这个《汉语大词典》图像版则收了Unicode的汉字。我想Unicode汉字无法直接检索(我技术不好,听说专业的古籍资料库可以),所以在自己的资料库内,大概会做一个词条后面有U+xxx的索引。

然后遇到繁难字,用别的方法(部件检索之类,我自己另有汉字资料库)查到U+xxx,就可以再查《汉语大词典》图像版页码。

看这个如何?