1、将坛子中的文字版现代汉语词典(第七版)解包,整理成文本;
2、AI编写python程序,统计词典中单列字头所构成的词;
3、按词首、词中、词尾分列。
不足之处:目前做不到按义项分列构词
字头位置.txt (1.6 MB)
和多音字一样,因为只能按字形处理,“上门”这一类 看来是漏掉了。不知道有没有什么办法让AI区分。
某些版本的 现汉七 单字带有 [词目组]和 [相关词组]。(如万有数据)
先提取单字,然后分离同形、多音字。[词目组]直接可以用,相关词组你可以分割成中间和尾字
建议保留拼音~
多谢指点,看来最后还是需要手动解决部分问题。 ![]()


