现代汉语词典第七版 单字构词统计

1、将坛子中的文字版现代汉语词典(第七版)解包,整理成文本;
2、AI编写python程序,统计词典中单列字头所构成的词;
3、按词首、词中、词尾分列。
不足之处:目前做不到按义项分列构词
字头位置.txt (1.6 MB)

有个问题,多音字,好像没处理好


还有另外一个问题:
有些词,找不到??
如:上门

和多音字一样,因为只能按字形处理,“上门”这一类 看来是漏掉了。不知道有没有什么办法让AI区分。

某些版本的 现汉七 单字带有 [词目组]和 [相关词组]。(如万有数据)
先提取单字,然后分离同形、多音字。[词目组]直接可以用,相关词组你可以分割成中间和尾字
建议保留拼音~

多谢指点,看来最后还是需要手动解决部分问题。 :handshake: