国语辞典简编本•网页版

1、由网页数据转制。

2、繁体词头缀上字符后传给谷歌译成简体,程序比对 CC-CEDICT 词头,筛出百来条可疑项,人工介入审核。词头加字符可避免谷歌“翻译”地区用语。

計程車 > 出租车 vs 計程車$ > 计程车$

3、开箱即用的是在线发音。如确有需要,可以去官网下载声音档,按 mdx 写好的文件路径制作 mdd。

4、删除了外语词发音控件。隐藏了部分元素,比如注音。

3 Likes

请教大侠,是如何隐藏那些像日文一样的注音的,原来一直想隐藏没实现得了

TW教育部慷慨发布了一系列汉语辞书,其中“重编国语辞典”和“成语典”偏历史向,适合语文研究者。普通人建议主用“简编本”。另外我比较关注还在测试的“中小学语文学习词典”。

网站上很多词的在线发音没有列出来,如:八面威風

地址:
https://dict.concised.moe.edu.tw/sound/mean/0001000021.mp3

规律一时想不起来了 :expressionless:

用excel打开,自动消除前面的“0”了。。。

难搞。希望官方能发现解决这个问题。

发现20241226版 csv 文档比官网少了6个词:

長方形, 狀元, 黨委, 謝謝, 鞭, 陶塑

csv 文档不太规范,在 neovim 中须作以下处理:

%s/\r\n\([^,]\+,[^,]\+,\)/@CUT\1/g

%s/\r//g

%s/\n//g

%s/@CUT/\r/g

将第一行替换为 @invalid,行首是不可见字符

国语辞典简编本.mdx (8.3 MB)
gycd.js.zip (143.7 KB)
闲来无事做个单词漫游,感谢 @Karx 的指导。侵删

注:wordlist匹配的是现代规范汉语词典

1 Like

推倒重来了几次,差不多补完了“釋義朗讀”和“單字朗讀”,后者默认隐藏。如果只给 csv 数据加发音,会容易很多,就是最好验证下音频可用性,如 requests.head(url),避免死链。这里难在准确对应网页与 csv 词条,因为存在多对多,所以伤脑筋。

国语辞典简编本.mdx (8.4 MB)
gycd.js.zip (143.8 KB)

更新。重新打包了 mdd。官方图片档有缺漏,比如“蘭花”条。

大家不断在完善,辛苦!

“多音”部分 href 有误,干脆隐藏了。

国语辞典简编本.7z.001 (12 MB)

国语辞典简编本.7z.002 (11.3 MB)

bá面威风。这是老播音的“七八”变调原则,现在央视就不这么念新闻了。北京年轻人也不这么说话。但北京中老年人、很多东北人都还这么说话

2 Likes

现在应该没问题。