所以,主题词里多了“汉字编码”,这才是蓝的分工。
解压是txt?mdx能分享吗?
我搬来的时候,已经就是合集了。我一开始并尚有发现这个,我只是当它是高级汉语词典。后来才发现这是两个词典合在一起。我就将就着用了。
算了,还是找渠道下载了存货,手动加了目录,并补齐了存货中的缺页:
词典看成了推理小说
2018版,无试读,无存货。
《汉字海》我听说是弄不到的。
《国际标准汉字大字典》这书能找到,可以校对整理一下,已经不错了。adwong真是神通广大啊!
即便不整理,能弄清楚其来历也有意义。
感谢各位共襄盛举,为论坛的资源添砖加瓦。
这两本在《精进汉语词典》里好像都有,难道数据就是打那儿来的?里面还有一本《现代汉语规范词典》也不错,是《精进》的主力词典。
@shaoshi 也可以拆开《精进》mdx看看《高级》。
拆合集找单本的建议,就像建议在明本里找宋本。
《高级汉语词典》、《国际标准汉字大字典》都有stardict的单行本。
stardict的《国际标准汉字大字典》就像jcz777兄的版本,加了英文,删了编码等。
mdict版虽然也被英文污染了,但其编码是原书原貌。
把mdict版的《国际标准汉字大字典》删掉英文,补上缺字,就符合原书原貌。
你用哪个版本?发来看看。
我自己用的是Access版,原始数据大概来自stardict。
假如我的版本真的比较好,我不吝于拿出来。但是研究了一下这两部词典,发现都是本坛的mdict版本资料较多。
《国际标准汉字大字典》,托adwong之福,得到pdf,清晰度不错,刚做完ocr。文字版得改一段时间。
说一下《高级汉语词典》。
高级汉语词典
王同亿 主编
出版社:海南出版社
https://book.kongfz.com/205213/3007368558/
stardict版所有文件只有6.59mb。本坛旧的金山词霸版mdx有11.8 MB,新的版本mdx有14.41 MB。
比较之后,发现stardict版似乎是个简化版,在单字部分少了很多资料。
Version 1
Index of /100G_Super_Big_Collection/汉语/字典/[汉-汉] ◆金山词霸2007高级汉语词典【shbf原创】【版本日期20061218】/
Name Date Size
… /
[汉-汉] ◆金山词霸2007高级汉语词典【shbf原创】【版本日期20061218】.mdd 24-Oct–2018 01:13 8251 B / 8.06 kB / File Hash
[汉-汉] ◆金山词霸2007高级汉语词典【shbf原创】【版本日期20061218】.mdx 24-Oct–2018 01:13 12372869 B / 11.8 MB / File Hash
Version 2
Index of /尚未整理/共享2020.5.11/content/3_chinese/4_大部头/高级汉语/
Name Date Size
… /
高级汉语词典.jpg 03-Nov–2020 07:09 11948 B / 11.67 kB / File Hash
高级汉语词典.mdd 03-Nov–2020 07:09 8251 B / 8.06 kB / File Hash
高级汉语词典.mdx 03-Nov–2020 07:10 15109550 B / 14.41 MB / File Hash
新的较大的版本是否一定比较好呢?我贴个截图,上面的是旧版,下面的是新版:
新版的拼音能正确显示,所缺少的英文在“停”字下的“停业”有,不过在“停业”下不列出来。
但是新版的汉语解释较多。
哪一个和真的纸版一致呢?
这里有书的内容的截图
虽然很模糊,比对了“大喜”的解释后,我发现旧的金山词霸版和截图的内容契合。
新的较大的版本对应于另一个版本的《高级汉语词典》吗?
我发现这个新版的《高级汉语词典》的解释和《现汉7》相同。
所以建议用旧的金山词霸版。
所谓的新版《高级汉语词典》,大概只是一个自作聪明的人做的大杂烩。
“汉字编码”“字典”
有错误。
我没说金山词霸版没错误。
有错误的符合原书原貌的版本,无论如何都好过自己乱编的大杂烩。
就我个人整理过的数据来说,我觉得金山词霸版不错。
就凭一个“据说”就这样贬低别人的劳动成果?
见#38楼的回复。
你应该说明你的数据的来源。
否则,牵涉到企业的名誉,不应该这样轻率发言。
我觉得我开这个帖子,讨论的成果还不错。我不希望这个主题被站长移到“In Case”去。
你可能不太看法律类的新闻。我还看过法律类的小说。你假如传播了未经证实的网络谣言,被告上法庭时一样得负法律责任的。
我刚改了几条。发现《标准汉字》的数据有很多问题。
mdict的作者在转换原始数据时大概已经碰到转码错误,又使用正则一类批量操作的方法,没有人工检查,于是制造了新错误。
对比pdf,有的条目错乱得挺厉害,拼音变成怪字,数据完全跳行了。
那些﹝﹞词组,里面拼音全都是乱码。完全可以去掉。可以用正则抓取。我都直接用※※代替,暂时没删掉。
如果去掉这些错误拼音,校对工作可以省好多事。而对于一部电子辞典来说,查个音太简单。所以,我认为这个错误拼音完全可以直接舍弃。
从版本学的角度看,无法改正的错误应该保持原貌。
当然,人各有所见,各有需要,各做各的,没有关系。