抖音汉语(HDC汉语大字典 + 90K 新词条 = 40万词条),,,施工中,,,

不是爬的,正儿八经买的聚典的服务,只不过估计给的钱少,拿不到那么多内容。另外,一个娱乐软件,它也不需要那么多书证之类的东西。

这个就奇葩了,抖音是那个庞然大物的抖音吗,还没有官方数据啊,是不是故意被审查了敏感内容。

可以肯定网页程序猿在流程中丢包了,比如网页json有的内容HTML没显示(应该是js程序猿的锅)。

本身json数据是不是另一个程序猿从数据库用query生成的,数据标签遗漏的话是数据库问题。

貌似search还找不到敏感内容。

聚典内容很多,这些网站或app只买了其中很少一部分。聚典实际上有很多工具书内容呢。有的app只为了用户稍微查个词用,不会花钱买全库的。

有道理,缺的内容也可能是钱不够的原因。目前总结是

1.数据库,程序猿丢包

2. 网页设计

3.钱 + 版本

4.审查

除了第一个,其他都是故意人为的。

其实我更推荐【中 国 搜 索】,那个也不需要注册,就能查词。如能离线将是个不错的选择。因为它不只买了聚典的部分,也买了其他库。

如果网速不限,也没有反爬虫,我觉得可行。可能数据体积会很大。

目前抖音的体积能有400-500GB。

1 个赞

那就就此打住,先不提及了,祝大佬好运。就是需要我提醒下,那个链接必须从我发的带【社科】的链接进,从首页进无效,如图中所示,图中红色框的部分,原本是有社科一栏的,原来从社科那里进可以直接查词,现在把这个直接入口给隐藏了,但是从我发的带社科二字的链接进,就还是能查词的。

你跟楼主推荐的这个有反爬吧,而且文字都加密的(聚典接口就是这样的,官方文档可查,抖音其实是特供版),不见得楼主解决的了,费力不讨好。

只有抖音是最好爬的。大伙天天爬,不知道字节工作人员啥时候也弄字体加密了。

再者,聚典的汉语大词典数据哪都一样,就那样了,别白费功夫,只是收录辞书数量有区别。最大问题是根本没有完整的词头去爬。

冷知识,用这些残缺的聚典,不如老老实实用光盘版。

如果抖音的search是最完整的,可以根据某个更大的清单来发现目前没有的词头内容(仅限于抖音)。

审查的内容可能是search屏蔽了,但可能是根本不存在?这些都是无法解决但是可以接受的。

抖音的就挺不完整的,因为掺了别的词典会代替显示,你用不到完整的汉语大词典的。

我的意思是说,DocId清单不完整(至于抖音本身内容是不是完整,我无法改进它),我只是说,至少可以借助search和一个更大的词头清单来排查抖音汉语黑箱里面的隐藏的内容(DocId目前有四十万,够用,是不是够完整,不知道)

谢谢分享发现,我弄好了抖音先,然后核实一下ChinaSo的可行性。

amob大佬估计把这两种数据库的用途搞串了,像我,用聚典是要查阅更多工具书的内容,而不是只看汉大的部分。聚典和中国搜索的好处在于收录内容多。如果大家只是为了补齐汉大内容,就不是讨论范围了。抖音汉语里也不是只有汉大。:grinning_face:

先把抖音汉语离线版本弄得彻底一点,里面很多没有标明原书名的定义,例句和诗词等等。我就不区分了,尽量下载。如果仅仅为了补齐汉大,这个算含杂质的汉大加强版吧。我目前想补齐这个抖音网站,因为它还可以爬。

中国搜索更大,如果可以爬,我考虑下一步。

2 个赞

大佬真牛,期待。

这些数据是来自汉典吧?

上述牛叉的技术大佬们!

哪位兄弟有百度网盘链接啊?

这个不知道,理论上来说抖音应该标记的,难道又是程序猿的锅

还没有完成,弄好了就加百度