【已上传】《汉语大词典》2.0 光盘版 软件内提取数据

HYDC2中的F4和F5,如果是多音字,内部词条的排序是不一样的。

HYDC3的F10是对应的单字页码,现在应该没用了,HYDC7的F3是图片的说明文字,可能对应的词头全是乱码,也用不了。用 abs 提供的那个在线导出可以直接看,有用的信息还是楼主那几个文件。

空白记录确实都是cjk以外的字,根据上下字条可以查找书上的相应位置去补。但应该远不止一千多,看了一处空白记录,对应的就有三个字:𠪙、𠪡、㕑

1 个赞

这种情况很可能是重复的字符,应该可以批量替换为当下编码(谨慎的话替换之前随机查找几次)

确定 唡,啢 乱码。
还有这几个字也没找到,或者就在那些私字里面。

不太明白老兄说的意思。什么重复字符,什么当下编码?光盘数据中不是空白记录吗?一个空白记录可能对应的是连续的好几个扩展区的字。

我有的时候碰到文本中有一些特殊编码(下图的E003)的字符、显示为空白

当然,跟你说的情况不一定相同

海迪这个我看了一下,有专业团队做反逆向,而且看上去是跟 商务印书馆有关系,就不给论坛惹麻烦了

3 个赞

不知道论坛上哪个版本适合补数据。

@shaoshi 兄认为是这个版本。我不太懂哪个版本改正的数量多、质量高

1 个赞

我认为刚提取的数据补不了哪个版本的数据。即使能补也补不了多少。

因为在之前提取的数据相对齐全。而且原数据本来就有问题,整理mdx的人陆续改了。比如:爱手反裘。(绝对的硬伤错误。)

你有兴趣,可以拿这个数据去和feiwu的《汉语大词典复刻》比较:

feiwu:汉语大词典2.0源数据
feiwu根据图像本补了一点新资料。

《汉语大词典》施工现场11.2
这个有方正版文本。

汉语大词典光盘版2.0,另附3.0光盤版
这个是光盘+方正+若干来历不明的资料。

你可以拿方正版去补这个2.0mdx。

假如你爱好版本的纯洁性,认为有来历不明的资料不行,那就干脆拿新提取的资料,重新做一个mdx吧。我认为用处不大,但是假如纯粹是做研究,就做看看吧。

假如你愿意对着图像版,拿方正版的文本去补这个新做的mdx,那等于开创了一个新版本,那倒是有价值。但是,三十几万条,你能补多少?价值按你能新补充的资料判断。

想从头来过的人,即使想超越feiwu的《复刻》,恐怕也不是太容易。

2 个赞

shaoshi兄是专业的,我先试试feiwu的版本,看看难度。

1 个赞

我是中文专业的,你是技术专业的。你做的mdx在技术上肯定专业。你假如在技术上有创新,即使内容没有太大的突破,还是可以期待的。

2.0光盘版mdx的一个价值是:批量把方正版的一些资料结合在光盘盘mdx中了。但是,或许是技术还不到位,或者是考虑不周全,补的资料不齐全,也造成一些资料错乱。

假如你重走这一条路,因为技术是专业的,也许能创造出一个新的光盘+方正版本,但是没有那些来历不明的资料。那么,这个版本是可以让人拭目以待的。至于内容上假如有疑问,中文专业的人可以帮忙解答。

还有一条路,是把hanny05的《汉语大词典》图像版(我没看到,应该是很清晰的),用一个专业的网上的ocr程式辨识一遍,再把词头抽出来,和新做的mdx词头相比。那么,又可以增补一些新资料。

1 个赞

如果工作量不大、不赶进度的话,以新文本为基础,应该可以得到一个更可靠的版本:

一个是私有区字符,根据现有的MDX修订;
一个是补上方正版增加的词条;
一个是可以去掉HTML标签后、与现有MDX(如feiwu的《复刻》)作粗略的文本比对,改掉“爱手反裘”这种明显(主观判断)硬伤错误,没有把握的一律不改。

对于个人来说,对着图像版、去做“订正”之类的不太现实,只能是文字专业人士出手。

1 个赞

掐指一算还是此大笨法最现实 :joy:

也没见过,目前没见很清晰的。当初不看重图像版,没把方正的图像都撸下来,唉

我还以为你有。不过紫雪蓝海的清晰版也还好,一般上辨识度不是太差。

我实际上做了全书的ocr,只是没把词头抽出来。

因为单字没有【】,所以考虑单字加【】再抽。但是真的太耗时间了。

图像版词头的重出词头倒是校改完了,用字严格遵循图像了,不过最后整理还会再花许多时间。

1 个赞

在精度要求高的地方不要相信OCR,在有些位置的OCR识别很让人抓狂
不过好像没别的办法了,纸质版能批量录入信息也就这种办法,到最后也得从头到尾的核对

没有人相信ocr。ocr资料主要是用来定位资料在图像中的位置,用ocr资料找到图像,再对照图像。随用随改。

ocr的词头可能可以用来辅助检查词典的词头。

2 个赞

楼主提取的数据文本标签齐全,跳转也完整,是很好的底本。缺失的数据会用feiwu的复刻版补充,类似爱毛反裘这种已经修改的文本,数据整理完后,可以通过代码筛选出来,现在还不知道有多少,少量可以自己改(<2000),需要比对扫描版,如果太多就没办法了。

2 个赞