抓取-词林在线词典

這個網站的近義詞詞典有些參考價值,站長或哪位大神可抓取下?
网站說可以分享,我一聯繫站長,說不分享了,要這個近義詞的數據,開價2萬,呃。。。

词林是翰林或翰林院的别称,也可以指词坛。词林在线词典致力于打造一个便捷、高效、绿色在线词典。可以通过搜索、索引等工具快速查找意思解释、语法、示例、典故等内容。集合中文词语解释、歇后语、诗词典故、近义词和反义词大全等汉语词典工具,还提供英语、法语、日语、德语、韩语、俄语、西班牙语、葡萄牙语等多种语言词典。包含数据近200万,通过算法汇聚、索引、摘要,打造了一个庞大的语义网络,初步形成了一个懂你的智能在线词典。
词林在线词典团队长期工作于文字行业,通过自己的累计和整理,得到了数据雏形(网站资料从网络收集整理,仅供学习交流,版权归原作者所有)。如果词林在线词典数据对您的工作学习有用,可以联系站长免费索取,同时,您有好资源愿意分享也可以联系站长。

1 个赞

这个没词头啊

分析下網站自己有沒有索引?
或用漢典,或漢語大詞典 、現代漢語大詞典 等 詞頭去撞一下。
近義詞反義詞 資源 還是挺不錯的。羅列了多種語言的近義、反義詞。

百度百科2012词头.zip (29.1 MB)

400多萬詞頭。。抓這個,可能用不了那麼多,合併漢典、漢詞大詞典、百度漢語、現代漢語、成語詞典、辭源 等詞頭,應該可以涵蓋了。hua 大有時間可抓下,資源挺不錯的。

让国内的人抓这个试试,我这儿打开它网页都要好一会。另外。。。这网站怎么回事?

我打開也是這樣了。網站可能在維護?

现在可以访问了,试试抓下看。

大漢和辭典 中文大辭典-詞頭45.8萬.7z (1.0 MB)
全是繁體詞頭,抓簡體的,要轉換下。

我真不抓。。。让有时间的小伙伴做吧。

OK,,,以俟後賢

我觉得用《现代汉语词典》的词条就可以了。我来试试吧。

1 个赞

出手惠及苍生!

觉得《现汉》都太浪费了,6万多条。有没有常用词典,更小型的?

现汉可以了,其他似乎更多。或用 精进汉语词典里的词频表,提取排名前2万的。

试了一些,恰好《现汉》提取的词条是从utf开始的,几乎都没有。我手头现在没有精进,能不能麻烦提取高频词条?

汉语词头–频率排序.zip (1.3 MB)

多谢,刚抓了半天,还没有效数据。这下好了。

这个好像某个语料库的分词结果。也不是很好。我想想办法吧。不过这个近义词效度也有限,内容重复的也很多。

我先抓个《现代汉语常用词词典》的词头。不过这个似乎又太少。先试试看吧。
链接: https://pan.baidu.com/s/1NqIi5BskufI5CNdJ0AOkGg 提取码: fgex
先用常用词词典的词头抓了点,看有用没?这个常用词词典似乎不收成语。不过这个网站的近反义应该是以词族的方式入库的,查族中的词,就显示整个族。所以内容不免大量重复。
只能回复三次?

看到了。重複的很多。我對比了下,漢語部分似乎就是來自同義詞詞林。後面不用再抓了。辛苦了,感謝!