现代汉语学习词典

我记录一下我处理的方法供大家参考。假如有人有更好的方法,请指教。

这个词典有两种形式的私用字,一种是可以用Emeditor的regular expression直接检测到的,另外一种是藏在&#X;里面的。

1.可以用Emeditor的regular expression直接检测到的。
find - regular Expression
[\x{E000}-\x{F8FF}]
注意:根据本坛的Emeditor专家jcz777兄所言:为了能匹配扩展区汉字。默认的boost regex引擎做不到,只能换Onigmo了。
这样检索,佛爷的原文本有:114个。
胡兄改过的文本仍然有:26个。

2.藏在&#X;里面的私用字。
这种格式的数据,胡兄已经做成这样:
<span class='spanExtCode'>&#X3E0C;</span>
我用Emeditor find-extract “<span class='spanExtCode”,把这些数据都提取到一个文本中,保存为text。
然后把这个text存为htm。

htmtxt.zip (3.0 KB)

用firefox打开这个htm,就会转为汉字。
能正确显示的汉字是扩展区汉字,不能的就是私用字。
我准备把&#X;都这样替换回汉字。替换后的私用字再用Emeditor的regular expression检测和消除。

1 Like

未命名2

论权威度,当然无法和《现汉》相比。

谈到对学习的帮助,《现规》的使用提示多,对学习者还比较有帮助。

这本词典似乎就是词汇表多一点。使用提示和例句也寥寥无几。

有千多个私用字,一一替换挺麻烦。看不出有什么引人注目的优点,就不想做了。

啊。真要搞大词汇表 ,不如把《现汉》、《国语辞典》和《汉语大词典》的词汇都汇集在一起。

假如说特别适合初学者的词汇,这个词典可能都没利用过词频。《现规》的词还是呼应《现代汉语常用词表》的。

这个词典看来就只是鸡肋。

我批量替換了一遍,對應unicode的都換了,還剩不重複303个私有字(不少類推簡化)。少實先生無意的話,我過幾天做了。這幾天手頭有些任務,不確定一定有時間。
待替換.txt (13.7 KB)
现代汉语学习词典2010.mdx (5.6 MB)

1 Like

我不想弄了。你假如把私用字都替换了,可以干脆美化一下版面,另外开个改版的专题。

嗯,不過css我還不會。我弄好發上來

现代汉语学习词典2010.mdx (5.6 MB)
私有字去完了(未編輯的版本漏个「􂫋」編輯後改爲𡌴,原書字型爲「直土」)。多數是類推簡化字。有一个不在編碼內的字(韋刄)。没有給類推簡化字添加繁體字索引,所以檢索着會比較麻煩吧。但如今使用已不成什麼問題了。版面確實不美觀,不過我一時無意去學改法,只能如此,以俟君子了。

9 Likes

谢谢老师,辛苦了

非常感谢!!

[[https://book.douban.com/subject/26771632/][现代汉语学习词典(繁体版) 港台原版 香港三联出版 (豆瓣)]]
港版是2010版本的修订版

兼容性问题报告