汉典【基本解释】与【详细解释】两部分数据

之前看了一些帖子,确定汉典的详细解释部分用的是王同亿的那个所谓高级汉语词典,这个词典名声很差,但还是想做一份词典,也找了很多之前的mdx,但是发现序号什么的排得很差,有的还缺少词性的注明,最后发现还是汉典里面的数据比较好,所以想求一份汉典的词条列表,从哪里能找到呢?

2 个赞

从mdx中提取不行吗?

1 个赞

看到好多mdx,要么没序号,要么序号是错的,比如把“又如:”也放在解释的序号里面。

你现在不是只需要词头吗?从mdx中提取呀,其它重抓

不知道那些mdx的词头是否准确呀,而且很多mdx是把别的词典的内容混起来的,而且汉典里面很多词头,那个《高级汉语词典》里也并没有收录,已有的《高级汉语词典》质量又很差,如果没有其它的方法获得,只能从已有的mdx里面弄了。

如果找不到,或者网站就没有列表的,就只能采取现有词头一个一个试的方式。

这个汉典可以用单字搜索来试:全站搜索

1 个赞

《高级汉语词典》 可以参看此帖:

《国际标准汉字大字典》与《高级汉语词典》

1 个赞

正是看了你们这个帖子,确定汉典基本解释部分是来自国际标准汉字大字典,详细解释部分就是那个高级汉语词典。

然后7楼分享这个数据,我看了一下,发现应该是两本词典词头的合并,《国际标准汉字大字典》与《高级汉语词典》 - #7,来自 jcz777

要《高级汉语词典》的词头,从这个mdx抽出来就行:

Index of /100G_Super_Big_Collection/汉语/字典/[汉-汉] ◆金山词霸2007高级汉语词典【shbf原创】【版本日期20061218】/

要《汉典》的数据,从这个mdx抽出来也行:

Index of /尚未整理/共享2020.5.11/content/3_chinese/4_大部头/汉典2020/

2 个赞

谢谢,我再看看。

数据的源头应该都是金山词霸,我从金山词霸2007里面提取了一份,依然有不少数据错漏,顺便还买了纸质的高级汉语词典,发现纸质词典本身也有各种小问题,改不胜改,完美主义的人会忍不了 :joy:,只能将就着用

用的是#8楼提到的那个数据提取的,去掉了与简体对应的繁体字头,一共还剩18066个字头。
【常用词组】的词组包含在数据里,可以把这部分提取出来再抓一下就好了。
数据仅包含【基本解释】与【详细解释】两部分:
cidian.7z (5.1 MB)

谁能帮我把那个【常用词组】里面的词条提取出来?就是类似这样的部分:

image

我用
image
命令提取,怎么还有冗余的部分在输出结果里呢,没整明白 :upside_down_face: :upside_down_face: :upside_down_face:

16nov9pm.zip (373.6 KB)

提什么?

<a href="/hans/丢三落四">丢三落四</a>
<a href="/hans/丢失">丢失</a>
<a href="/hans/丢失">丢失</a>
<a href="/hans/丢手">丢手</a>
<a href="/hans/丢心落肠">丢心落肠</a>
<a href="/hans/丢心落意">丢心落意</a>
1 个赞

就是上面图片里面的那些词组,好用这些词头再去抓词语的解释

已下载,谢谢hua大,敢问您是怎么提取的 :smiling_face_with_tear:

需要的是丢掉

@Quantus Emeditor,一模一样的正则

<a href=\"\/hans\/.*?\">.*?<\/a>

奇怪,在Linux上用grep结果完全不一样

汉典这个一直没改。那个《高级汉语词典》mdx里面,奄,奄〈动〉这条丢失字头。汉典直接没有了。


奄〈动〉

1 个赞

高级汉语词典的类似前言的部分有说过它一共大约收录了多少字词嘛?

《百度百科》
高级汉语词典
《高级汉语词典》是1996年海南出版社出版的图书,作者是王同亿。
本书收词8万千余条680万字,增收了改革开放20年来出现的新词新语1万多条。选录4百多个学科的常用名词术语。字词释义运用"破坏式求真法"。克服了一些词典释义以偏赅全的通病。

我根据stardict版做的Access版有51673条。

1 个赞