抖音汉语(HDC汉语大字典 + 90K 新词条 = 40万词条),,,施工中,,,

根据HDC的词头,又recursive下载了能发现的词条

大概增加了9万个HDC以外的“新”词条。总共将近40万词条(?!)

还有离线发音,图像。待上传。

采用了黑白的样式,例句默认展开。

如果不喜欢,可以自己搞一下惊艳点的。

MDict_1fLVQWS8bx

9 个赞

是含汉语大词典吧?除了离线发音和图像,其余数据都齐全了吧?

搜狗汉语和抖音汉语都是买的聚典的内容,要看这俩是否有本质区别,如果源头下的内容都一样,貌似没啥必要。

内容很不错,期待离线版。很多在线版都是短命的,只有离线版,才能经受时间的考验。

含,如果没有被reference就没有docid,就无法下载。

聚典在哪里可以下载? 没听说过。。。

是的,这是离线版的主要好处。

聚典没有单独的app,是上辞的工具书数据库,搜狗、抖音汉语这些都是买的其中的部分服务。下面网址中,左侧就是买了聚典服务的,不同数据库之间存在差异,可能有的花的钱多,有的花的少点,数据库内容不一样。聚典数据开放平台

谢谢详尽回复。根据抖音汉语和hdc的内容来看,也有一些数据可能是没有完整的显现在网页里面。我可以研究一下你给的网站,目前只有流量大和网速快的才能实际下载全网。这还没考虑反爬限制。

我先把抖音处理完整了再看看有没有相关的内容和网站可以制作。

你也可以考虑下【中国搜索】,它买了辞海和大百科以及聚典的服务,搜的内容又多一些。它原本首页搜索框里直接选社科选项就能出词典搜索结果,但现在隐藏了一级页面,只能通过一个隐藏的通道进入,我把链接贴给你:社科_中国搜索

好的谢谢,我都不知道有这些网站,如果可行的话,按顺序一个一个地试着变成离线mdx。当然还得看空闲时间。

数据还是有缺失的,另外简繁转换没搞明白是什么逻辑。比如当年的辅助释义项——编者自造例证就没有,还有羊马城用简体字可以搜得到繁体字就搜不来了:sweat_smile:不过你能整部都扒拉一遍也算是出了大力了,后续可以慢慢移补

首先要求句子本身是繁体,然后得有简体版数据。其他情况按钮都无动作,这是符合逻辑的吧。

肯定不完整,因为必须知道19位数的DocId。凡是被HDC指向过的都下载了。

简繁倒好整。这个当年的例证要素我看了下词条网页构造元素是有涵盖的,按理说这个不是从josn文件里解析出来的,那么原本的元素应该也有才对,不可解啊>_<不过也无所谓,抖音汉大最大的价值是可以抽出很大一部分光盘版的缺失书证

我这个版本是json里面的,因为网页是基于它的,但是不完整(网页会漏掉一些数据,比如相关词和基本信息,明明都在网页自己的json里面)。另外简体字是电脑合成的属于附加内容。我不知道json数据是不是比光盘的完整,但是格式和当年的hdc不一样,肯定更新。

大量释文缺失,说不上完整。就是例证会多出来一些,光盘复音词条相关的缺例粗估一万三四

我倒是对最初31w的ID的获取方法感兴趣,在没有目录,不能遍历,不能网址=/x/{keyword},不能search={keyword}的情况下,如何从19位数中获得31w的ID

是光盘还是网页json缺失这些?举个例子?

这些是对比json里面有的多余例句么(我说的json是网站的json)好像光盘也是json的。

要么是光盘里面的,要么是搜寻的,还可能是有规律能从词头产生DocId。这些我都还没有。

释文缺失的情况光盘版和抖音版都有,抖音比较严重点,缺引申义/泛指义/借代义之类的,比如“粉色”;还有缺参见/参考项的也彼彼皆是。抖音缺词有时候有些好笑,比如缺“鸡巴”、“肉屏”、“传教”等。我现在都怀疑抖音汉大是不是本身也是爬虫怕的