抖音汉语 2025-09-14 终结,622296 词头

昨天的版本里面有
7205900549827723316 中阃

你说的是异体字或者简繁排列组合 variants 没有redirect?

发现官网第一个双重(没有合并)的词头,被assign两个DocId,很可能是空格被当成字体了

形态逼真 - 抖音汉语

形态逼真 - 抖音汉语

果然。。。逼。。。真。。。。

以假乱真。逃过了程序猿的小眼睛。

1 个赞

更新了mdx,mdd,加入了leon和KK提供的新词条,

总共617700 个词头。

图像和发音会放在新的3.mdd里面

cssjs还有待完善。

1 个赞

新的3.mdd上传了百度。

freemdict很慢,十分钟以后上传完。
看看timestamp就知道要不要下载了。

你这个词典源数据是json嘛?意思是抖音和你对同样的json源数据做了不同的处理,所以html结构不一样?

这就是我说的还有600个词必定存在,但是还没有找到。在楼上的压缩包中。

源数据是json,因为
1)html不完整 (json里面内容漏掉一部分)
2)html是js生成,重复劳动,乘以读取次数和使用者,太浪费,体积还增加了几百倍 (800GB - 1TB)。
3)html在多个发音时,只含有当前发音的内容,还得一个个按,一个个等。

我可以试试把对应的结构用一样的class

1 个赞

看了一下抖音百科,和抖音汉语一样的思路,两条路,用词库撞搜索栏,得到结果列表,(DocID,Title)为主词条,(DocID,Text)为关联词条
json位于<script nonce="argus-csp-token" id="prefetch-data">(.*?)</script>
可惜有防爬,不玩了,走了
抖音百科当前总ID2.0.txt (542.8 KB)

百科就不需要了,外网连页面都打不开,如临大敌,神经兮兮的。

先把字典弄好,因为字典离 《利益 和 钱》很远,也就离神经兮兮的东西远一点,清净很多。

抖音百科内容不是聚典的了,是原来的快懂百科(互动百科)的内容。

截个屏给我看看,这里完全打不开。


这个估计是另外一个,谷歌“抖音百科”的第一个结果。

明天继续。

抖音百科的链接直接就是 快懂百科

你是不是 又忘记 啥了?????????????

617701不吉利,还没完工,你要有点耐心。

你从6167~6177多出来的一千是怎么来的?我这边又搞了一些,我怕搞重复了。

你的意思是要一个docid清单? 都在mdx的词头链接里面

我要思路吧,

目前是从search里面排查,你觉得对不对