教育部重編國語辭典(第五版) 220923

atauzki · 2022 年9 月 26 日 01:36

没更新zsbd

foggi · 2022 年9 月 26 日 02:55

唉，可惜我们上不了wfg的blog……幸亏本坛有少实兄，几句话就能让我们对很多同名作品的版本源流有一个大概的了解，否则自己去梳理，真的是一团乱麻。同一本书（当然是那种有话题有热点的），很多高手都会各自做，彼此之间并不互通声气，也是常态了。

endnote · 2022 年9 月 26 日 04:43

最近在瞎鼓捣繁简转换，看到不少帖子推荐的是opencc
为繁体词典添加简体索引 - 技术交流与词典编修 - FreeMdict Forum
我自己试了一下opencc，大致还能接受。也是有多种模式

不知道这个starcc是否比opencc更新、更好？
GitHub - StarCC0/starcc-py: 简繁转换簡繁轉換

对古籍的简繁转换难度大，可能连AI都不好使，不用说上面这两个。
但对这种词典词头，应该问题都不大

atauzki · 2022 年9 月 26 日 04:55

starcc的数据就是来自opencc的，但是opencc没有python的接口，starcc可以先分词再转换，安装的时候会下python的结巴分词库，但是因为词条都是单字或者短语，这里我没用到

Update: 用了分词结果还是一样的，分词还是对整句效果更明显

shaoshi · 2022 年9 月 26 日 05:03

我不确定他是否会改。但是他似乎有这个意愿要改。

2022-07-11版 yuki本坛版本日期

2022-08-21 (WFG blog)
yuki：
感謝說明。看來得把之前的舊文件全部拿出來升級了。

yuki

2022-9-14 Unicode 15.0 发布

endnote · 2022 年9 月 26 日 07:00

pip install opencc 之后

import opencc
converter = opencc.OpenCC('s2t.json')
converter.convert('汉字')  # 漢字

然后可以转换单行，写个for语句就可以处理整个文档

starcc可以先分词，这个没用过，应该比较先进

atauzki · 2022 年9 月 26 日 12:22

是图片

atauzki · 2022 年9 月 30 日 14:28

教育部重编国语词典.7z.001 (12.5 MB)
教育部重编国语词典.7z.002 (8.4 MB)

该附件相比一楼的文件，加了子集化的全宋体，使生僻字、异体字能在移动设备上显示。ios欧路和安卓深蓝测试均有效，goldendict测试无效，会报invalid sfnt version，~~估计原因是字体太新（最新版有extH区的全宋体）浏览器版本太老，qt6.3对应chromium94，而最新版是106~~

解决方案：更新xiaoyifang的最新版goldendict，词典的附件也重新上传了

endnote · 2022 年9 月 30 日 14:59

不错。
有时间把子集化的方法发上来分享一下吧，毕竟整个字体加起来都180M了

atauzki · 2022 年9 月 30 日 15:14

论坛里有啊
https://forum.freemdict.com/t/topic/13884

shaoshi · 2024 年4 月 30 日 07:22

旧版
【唐山】
ㄊㄤˊ ㄕㄢ
1.海外华侨对中国的称呼。以前海外各地的中国人多来自背山面海的闽粤，愈向内地深入，山势愈高，整个中国在印象中成了高不可测的大山，再与历史上声威远播的唐相联，遂有唐山一称。台湾光复前，因孤悬海外，又为外族占据，所以民间亦称中国大陆为“唐山”。
2.城市名。见“唐山市”条。

新版
删了【唐山】，保留【唐山市】和【唐山大地震】。

对比：

《现代汉语大词典上册》第1203页。
〖唐山〗
táng shān
华侨对祖国的习称。许地山《商人妇》：“我想你瞧我底装束像印度妇女，所以猜疑我不是唐山人。”

xianjue114 · 2024 年5 月 11 日 05:31

中间一行英文？请大佬修订。

skippy · 2024 年5 月 11 日 21:49

有更新的版本了分享：《教育部重編國語辭典修訂本》共 162,806 條目