若干中文词典的词头txt及其合并去重tsv

如题,字,词,成语,句,典故,辞源,辞海,古代,近代,现代,华语,不含百科类,合并去重之后122w条,

想法源自英语词头100w


一些汉语词典词头.rar (16.9 MB)
合并去重首次来源.rar (5.6 MB)
tsv格式,和txt,csv一样,图片字未修,私人字未修,少许&#未修,汉字1,汉字2,释义分类的脚标未修,

补一个词头
词头_漢語大全詞典.txt (4.7 MB)
123w.rar (9.9 MB)
相应的123w去重后词头来源,和单列123w词头的csv

补一个词头,有词头,有繁体,有的词还有多个繁体,感觉可以用来做繁简对照,繁简通搜,
例如便当 便當;便噹


词头及关联词_data搜狗.rar (3.9 MB)
加了几百个词,例如“私生粉”
相应的123.3w去重后词头来源,和单列123.3w词头的csv
123.3w.rar (9.8 MB)

1 个赞

打开随便看了几行,有很明显的错误,看起来是机器生成的,不如拿openCC收集的词库,那个最起码有时间和人工检验。我打开搜狗汉语也没看到哪里具体标明了简繁体。

右键查看源文件,底部json。

关于汉语大词典补几个版本
词头_漢語大詞典[复刻].txt (2.7 MB)
词头_漢語大詞典3.0增加简体检索版.txt (4.4 MB)
词头_漢語大詞典乱码及部份內容修正 (2021.10.20).txt (4.5 MB)
词头_漢語大詞典2.0.txt (3.9 MB)
词头_漢語大詞典3.0.txt (2.8 MB)
词头_漢語大詞典訂補.txt (272.3 KB)
126.rar (10.0 MB)
以上主要以中文为主,有辞海7辅助百科类也够了
以下添加百科类

词头_CIHAI2009 [第6版典藏本].txt (1.2 MB)
词头_CIHAI1999 [第5版彩图珍藏本].txt (1.2 MB)
词头_辞海-1999.txt (1.2 MB)
词头_DBK第三版20210905.txt (3.4 MB)
词头_中国大百科全书.txt (2.5 MB)

词头_大辞海小图.txt (2.9 MB)
158.rar (14.2 MB)

1 个赞

再补几个词头,才发现emeditor自带去重的功能,可以节省Python去重了
词头_all_in_姓氏.txt (105.8 KB)
词头_all_in_地名.txt (846.1 KB)
词头_all_in_典故.txt (1.1 MB)
词头_all_in_官职.txt (399.0 KB)
词头_all_in_历史知识.txt (680.0 KB)
词头_all_in_民族.txt (312.9 KB)
词头_all_in_人物.txt (679.1 KB)
词头_all_in_事件.txt (2.2 MB)
词头_all_in_诗词百科.txt (95.1 KB)

1 个赞