没更新zsbd
唉,可惜我们上不了wfg的blog……幸亏本坛有少实兄,几句话就能让我们对很多同名作品的版本源流有一个大概的了解,否则自己去梳理,真的是一团乱麻。同一本书(当然是那种有话题有热点的),很多高手都会各自做,彼此之间并不互通声气,也是常态了。
最近在瞎鼓捣繁简转换,看到不少帖子推荐的是opencc
为繁体词典添加简体索引 - 技术交流与词典编修 - FreeMdict Forum
我自己试了一下opencc,大致还能接受。也是有多种模式
不知道这个starcc是否比opencc更新、更好?
GitHub - StarCC0/starcc-py: 简繁转换 簡繁轉換
对古籍的简繁转换难度大,可能连AI都不好使,不用说上面这两个。
但对这种词典词头,应该问题都不大
starcc的数据就是来自opencc的,但是opencc没有python的接口,starcc可以先分词再转换,安装的时候会下python的结巴分词库,但是因为词条都是单字或者短语,这里我没用到
Update: 用了分词结果还是一样的,分词还是对整句效果更明显
我不确定他是否会改。但是他似乎有这个意愿要改。
2022-07-11版 yuki本坛版本日期
2022-08-21 (WFG blog)
yuki:
感謝說明。看來得把之前的舊文件全部拿出來升級了。
2022-9-14 Unicode 15.0 发布
pip install opencc 之后
import opencc
converter = opencc.OpenCC('s2t.json')
converter.convert('汉字') # 漢字
然后可以转换单行,写个for语句就可以处理整个文档
starcc可以先分词,这个没用过,应该比较先进
教育部重编国语词典.7z.001 (12.5 MB)
教育部重编国语词典.7z.002 (8.4 MB)
该附件相比一楼的文件,加了子集化的全宋体,使生僻字、异体字能在移动设备上显示。ios欧路和安卓深蓝测试均有效,goldendict测试无效,会报invalid sfnt version,估计原因是字体太新(最新版有extH区的全宋体)浏览器版本太老,qt6.3对应chromium94,而最新版是106
解决方案:更新xiaoyifang的最新版goldendict,词典的附件也重新上传了
不错。
有时间把子集化的方法发上来分享一下吧,毕竟整个字体加起来都180M了
旧版
【唐山】
ㄊㄤˊ ㄕㄢ
1.海外华侨对中国的称呼。以前海外各地的中国人多来自背山面海的闽粤,愈向内地深入,山势愈高,整个中国在印象中成了高不可测的大山,再与历史上声威远播的唐相联,遂有唐山一称。台湾光复前,因孤悬海外,又为外族占据,所以民间亦称中国大陆为“唐山”。
2.城市名。见“唐山市”条。
新版
删了【唐山】,保留【唐山市】和【唐山大地震】。
对比:
《现代汉语大词典上册》第1203页。
〖唐山〗
táng shān
华侨对祖国的习称。许地山《商人妇》:“我想你瞧我底装束像印度妇女,所以猜疑我不是唐山人。”
有更新的版本了 分享:《教育部重編國語辭典修訂本》共 162,806 條目