一些汉语词典(恢复部分词典的图片等数据)

现代汉语规范词典到时候新做一个,从MacOS里面提取出来的新版本比这个多了几百个词头的样子。辞海那个现在去看看。

辞海这个正则匹配容易误伤,现在先不轻易改了 :smiling_face_with_tear:,但我上传个新版本吧。

更进截止日期20221208:
商务新华词典
商務新詞典(全新版)
汉语成语词典
现代汉语同义词典
辞海(第7版)

下载地址在112楼

5 个赞

搜狗截图20221209135152
1、某些词语有半个方括号。
2、点击拼音无法跳转 :smile:

到时候有时间我用MacOS里新提取的重新弄一个。现在这个底版忘记从哪儿搞的了。

辛苦了!有个疑问,请问词典里的图片(不通过互联网获取)是如何插入的?如现代汉语词典第7版,现代汉语规范词典第2版等里面的某些词条,因为只看到mdx文件,没有mdd :joy:

图片转base64编码

关于教育部重编国语辞典的多音字显示顺序问题,我目前想到的解决方案是:
1、先在excel里将源数据按每个多音字排好序,使得呈现的数据结构是这样的。

多音字词条A
<entry>发音1</entry>
</>
多音字词条A
<entry>发音2</entry>
</>
……

2、在emeditor中,用正则表达式(一个字最多六个发音,就从六开始直到一)
搜索:
(<sup>\(五\)</sup>)(.+?)</entry>\n</>\n(.+?)\n(.+?)<entry>(.+?)(<sup>\(六\)</sup>)(.+?)(</entry>\n</>\n)
替换成:
\1\2</entry><entry>\5\6\7\8
……
替换后的结构如下:

多音字词条A
<entry>发音1</entry><entry>发音2</entry>……
</>

起码我这里用这用方式处理后,多音字的顺序都正常了。
仅供参考

4 个赞

一、跳转问题
1、【准、裳】。缺引号,缺跳转。
1

2、【啻、嫗、居里夫人、相、應該】。跳转制作有问题。

5

4

3、【巳、徉、鐘】。多个词跳转错误。
7
8

4、【稟】。需要把图片转成文字,跳转就好了。
6

5、一些词语:
【放棄】缺跳转,释义问题(源数据即如此)。
9

【標榜】缺跳转,缺句号。
10

【綠林好漢】缺跳转,句号单独一行(源数据即如此)。
11

【仲由】缺跳转。
13

二、例的格式标签问题
有多处[例]没有被赋予格式标签,以及发现一些括号引号缺失修复了几处。
15

1

三、同义词和反义词重复标记问题
按照原书的格式,合并且以顿号间隔。
1

四、序号显示问题。
个别字的序号10、11显示有误.
搜狗截图20221220191949

五、衍生词中混入“孳”字
搜狗截图20221220194757

以上修改后的版本2022.12.20:
五南國語活用辭典.mdx (10.3 MB)

六、缺少词条问题
未收录【已】词条,但是在ios里可以查到 :joy:。不知道如何将ios内置词典导出?

3 个赞

绿林lùlín,绿不读 [lǜ]

1 个赞

两岸读法不一样

2 个赞

最近就没有时间再搞了,这个五南国语活用词典是从MacOS里提取的,现在发到论坛这个版本是旧的(60066个词头,不计跳转),在iOS升级到16,MacOS升级到最新版本后加了数百个词条,是有更新的,前一阵子我发现了这个,确实加入了〝已〞词条。但仍缺少〝善〞,〝意〞这些词头。等我有时间后再弄吧,最近就不弄了。

iOS目前没办法导出,但是MacOS的是可以导出的,在/System/Library/AssetsV2/com_apple_MobileAsset_DictionaryServices_dictionaryOSX/下,可以找到对应的词典,一层层的进去,把Body.data文件拷出来,然后用GitHub上这个项目将data文件中的内容导出:GitHub - JadedTuna/apple-dictionary: Tools for extracting data from Apple dictionary files (used by the Dictionary application on Mac).

谢谢!我从虚拟机安装了macos12.6,从中找到了Body.data文件并拷出,接下来就不知道该如何操作了。
github上是这么说的:
General usage would be to first compile the code with make and then run
./dedict path/to/Body.data | ./strip | ./checkxml.py > dictionary.xml
由于我不是专业人士,这一串可把我看懵了,如果方便的话能否告知接下来具体该如何操作?
我试着搜索了相关信息,只找到挖掘 macOS 词典文件的方法,里面同样没有讲得太详细 :joy:

make就是编译一下,不过如果你缺少某些东西的话可能编译不了,还得再安装一些东西什么的,太麻烦,我这儿有编译好的:
apple-dictionary-master.zip (11.9 KB)
比如说你把Body.data放在与dedict一个文件夹下了,输出的文件名叫dict.xml,在dedict所在文件夹那么你就输入:
./dedict Body.data | ./strip | ./checkxml.py > dict.xml
就可以了,dict.xml就可以作为词典txt文件的基础了,用此方法可以把现在MacOS里所有词典都提取出来(如果你有兴趣的话,可以单开一个帖子)。

3 个赞

做到这点好像很难

《精进汉语词典》里的《现代汉语规范词典》没有你发现的问题,不知道是对应第几版的。

文件已经不在了T T

授人以鱼,不如授人以渔,。请教一下大侠可不可以介绍一下如何制作合集词典的方法,像隔壁论坛一样透露一下制作方法,供菜鸟们学习一下,在下先多谢你的资源分享。

1 个赞



没图标的是这里下载的,有图标的不知是哪里下载的。

1 个赞

你是不是没下载那个hycd.css

没注意到那个css是通用的。谢谢大佬。

2 个赞