《汉语方言大词典研修版》

一、这是矢口网版,不需要解密;
二、目测有错字;
三、有不少私有字;
四、释义与举例混在一起,没有标签隔开;
五、简单整理了一下,先发出来,看大伙能不能补全私有字、改掉错别字或补出遗漏内容,然后再考虑反查。

提取码:8AH7

4 个赞

感谢佛爷和sxingbai兄的辛勤工作。

大致看了一下:

新制作的mdx:</> 210665
已有的图像版:210614
新制作的mdx资料似乎多于现有图像版。

新制作的mdx:img 364819

bmp 364336

find - regular Expression
[\x{E000}-\x{F8FF}]
私用字:26670

这书的图像字达到了几十万的级别,不太可能替换完。难度还高于处理方正版《汉语大词典》。

理性思考:只能把词头的图像字和私用字设法替换了。正文资料则在需要引用时,才对着图像改一改。

这仍然是很有用的,因为还是有很多正常的文字可以检索。假如需要引用,可以少打很多字。

反查,大概不容易做。要做也只能做到部分内容的反查。

文字版词头比图像版不会多多少,里面有一些笔画词条我没删。所以对照少实兄修订后的词头应该可以修改文字版的一部分词头。
词典中的图像字大多应该是国际音标。

因为图像版的词头已经修完,可以检索和复核图像,所以文字版的词头一定都能修正的,需要的只是时间。

确实可能有几十万个音标。注音可以看图像,文字版没有音标倒无所谓。

amob兄发的《现代汉语方言大词典》不完美文字版是有音标图像的,因为在百度盘,我看不到,只求了mdx。

不知道那些音标和《汉语方言大词典》用的音标是否相同?也许你可以查一下。不知道能不能搬过来用?

我从你发的mdx中只提取到词头210543

我算的是Access的词头,所差的字头大概是异体字索引,我没有把这些放进mdx。

我再看了一下,发现这些词条是带页码的。

修完词头后,可以在词头旁用页码链接到图像。

或者:把所有词头按页码打在同一个页码词头下,反其道而行之,我检索图像版的词头,同时显示同一页的文字。

图片是在线加载的。最好是下载图片 做成离线版的,版面再 美化下。词头图片字能替换更好。

可以做成图文综合版。

先放出文本,修改错误。其它都不是事。

刚才词头处理还有问题,现在210617,竟然比文字版词头还多。但两者顺序并不完全一致,可能是文字版的顺序有问题。图像版biao标签中词条的顺序应该没有问题吗?

图像版的词头页内顺序是不对的,因为我解开mdx时可能就乱了。文字版可能反而是对的。

哦,我以为图像版的顺序是对的呢,我没有mdd,所以没有比对。那看来快不了,慢慢来吧。

核了几条,文字版的“上一条”、“下一条”是对的。单单这一点就很有价值。看来这个版本的质量不错。

那说明文本词条顺序是对的,质量是另一回事。
刚才按顺序提取文本版词头出了点问题,明天再弄。

1 个赞

词头:桑莫⇒桑䓴

再来一条:
〖词头〗〖󵱖 (U+F5C56)〗FY3765
⇒“𲄗”U+32117

少实兄用的哪一版全宋体,(U+F5C56)现在应该是长这样:

image

3 个赞

这个字我的汉字数据库里没有,可能是原数据,漏改了。

我用全宋体,但数据库里只收Unicode有的字。我做词典的原则是:宁可用拼字,不用私用字。所以这个私用字不可能是我加进去的。

应该还会有这种看漏的情况。这部词典实在太大了,电子版问题非常多。

我做这个的时候还不会用正则检测私用字,所以这里面可能还埋着一些这样的私用字,没有改掉。

你假如有兴致,可以批量检查一下私用字。

1 个赞

个 FY0378
发 FY1549
老 FY1652
把鼻儿 FY2593
挣 FY4029
唔送噜 FY4795
唔系咩 FY4795
唲 FY5426
󵱖 FY3765
黄酸搭􃓿 FY5313

没有逐个查对应哪个词了,前面8个用微软宋体能显示字形,后两个是全宋体私有字。

3 个赞

发现一些知网词头错误,这里也传一份。
有些楼主已经修改了。

“汆客、汆套、汆脱、汆浮尸”都是“氽”开头
“氽江、氽烩、氽粥、氽肉米线”都是“汆”开头
“汨冻、汨沱”为“汩(gu3)”开头
字头“茇”误为“苃”
“址刺、址起脚、址刺开杈”分别是“𣥠剌、𣥠起脚、𣥠剌开杈”
字头“㢀”带的词语全部错为“㾊”开头
词头“𫧃睏”误为“睏睏”
词头“𫎱趚”误为“趚趚”
字头“蚼”误为“岣”
词头“𠍲嘅”误为“嘅嘅”
字头“嬎”误为“嬔”(真就只有“一点”不同)
词头“臁婆肚”误为“𧸖婆肚”。纸书即如此!
“䕢䕢苴苴”应为“藞䕢苴苴”。纸书即如此!

纸书本身的奇怪问题

字头是“叟”,词语是“叟抠儿”。纸书即如此,应该是异体误为字头了
又一处:字头是“㲒”,词语是“𣭀虫”
又一处:字头是“殻”,词语是“殼囊”
又一处:字头是“勖”,词语是“勗兹”。真是奇怪
又一处:字头是“𧾁”,词语都是“𧾓”开头

4 个赞