抖音汉语 (汉语大词典+) 2025-09-14 终结,622296 词头

你词头数量不对吧,怎么还是618,不是622么

不知道为什么,只有618,几楼是新词头?

随便想想按规律填数的问题,下面一楼还有抖音百科的json

都在里面了,你举个例子?

是格式,你的数据里面有html.script, 而不是纯json,使得无法处理。修复了再更新。

已经“终结”多次了 :grinning_face:对楼主这种锲而不舍的精神表达敬意。

搞辞典,就是要这种强迫症。:duck:

k兄,完整的汉大id+词头是哪个?M兄的mdx中有,json中也有,但我的电脑空间实在有限,能省点事还是省点事吧。

这个:
202509123map.rar (5.8 MB)

1 个赞

总结


拼音: yù, ào
部首: 邑
笔画: 14 (+12)
统一码: U+E8FC 选择资料库 (5):

漢語大詞典(第一版+訂補)

康熙字典(標點整理本)

小學堂字音

小學堂韻書

漢語辭典總匯字庫 更多选项 (4):

[引用条目“”](javascript:void(0):wink:

[检索含有 “” 的汉字](javascript:void(0):wink:

[检索以 “” 开头的条目](javascript:void(0):wink:

[检索含有 “” 的条目](javascript:void(0):wink:

  • 全部
  • 1 yù
  • 2 ào

漢語大詞典(第一版+訂補) › 第20册 › 邑(阝右)部 › 

1yù

[yù《广韵》於六切,入屋,影。]

姓。

宋罗泌*《路史·后纪九上·高辛氏上》*:“其以邑氏者……郁、、彧、柯之氏。”

漢語大詞典(第一版+訂補) › 第20册 › 邑(阝右)部 › 

2ào, yù

同“[奥](javascript:void(0);)”。

《隶释·汉敦煌长史武斑碑》:“領校祕,研□幽微。”

  • 洪适释:“碑以爲奥。”
总结


拼音: yù
部首: 日
笔画: 16 (+12)
统一码: U+E90A 选择资料库 (6):

漢語大詞典(第一版+訂補)

现代汉语大词典

康熙字典(標點整理本)

小學堂異體字表

小學堂韻書

漢語辭典總匯字庫 更多选项 (4):

[引用条目“”](javascript:void(0):wink:

[检索含有 “” 的汉字](javascript:void(0):wink:

[检索以 “” 开头的条目](javascript:void(0):wink:

[检索含有 “” 的条目](javascript:void(0):wink:

漢語大詞典(第一版+訂補) › 第10册 › 日(曰⺜)部 › 

yù

[yù 《集韵》乙六切,入屋,影。]

同“[燠](javascript:void(0);)”。暖;热。

宋梅尧臣*《潘歙州话庐山》*诗:“風力豈能加,日氣豈能。”

总结


拼音: líng
部首: 鼠
笔画: 18 (+5)
统一码: U+E91C 选择资料库 (6):

漢語大詞典(第一版+訂補)

古代汉语大词典(新一版)

康熙字典(標點整理本)

小學堂字音

小學堂韻書

漢語辭典總匯字庫 更多选项 (4):

[引用条目“”](javascript:void(0):wink:

[检索含有 “” 的汉字](javascript:void(0):wink:

[检索以 “” 开头的条目](javascript:void(0):wink:

[检索含有 “” 的条目](javascript:void(0):wink:

漢語大詞典(第一版+訂補) › 第24册 › 鼠部 › 

líng

[líng《广韵》郎丁切,平青,來。]

见“[𪕍](javascript:void(0);)”。

总结


拼音: qiān
部首: 卩
笔画: 19 (+16)
统一码: U+EC29 选择资料库 (7):

漢語大詞典(第一版+訂補)

康熙字典(標點整理本)

小學堂異字形

小學堂異體字表

小學堂字音

小學堂韻書

漢語辭典總匯字庫 更多选项 (4):

[引用条目“”](javascript:void(0):wink:

[检索含有 “” 的汉字](javascript:void(0):wink:

[检索以 “” 开头的条目](javascript:void(0):wink:

[检索含有 “” 的条目](javascript:void(0):wink:

漢語大詞典(第一版+訂補) › 第4册 › 卩(㔾)部 › 

qiān

[qiān 《广韵》七然切,平仙,清。]

亦作“[𠨨](javascript:void(0);)”、“[𠨩](javascript:void(0);)”。“[遷](javascript:void(0);)”的古字。

《汉书·律历志下》:“周人其行序,故《易》不載。”

  • 颜师古注:“,古遷字。”

又:“周𠨨其樂,故《易》不載,序於行。”又*《地理志下》*:“衛本國既爲狄所滅,文公徙封楚丘,三十餘年,子成公徙於帝丘。故《春秋經》曰‘衛𠨩于帝丘’,今之濮陽也。”

2 个赞

k兄找到了余下的4个私有字?可喜可贺。
有没有把字体文件和网页代码抓下来?

抖音汉语中目前可能缺失的条目
only_in_file2.txt (383.3 KB)

三个都有对应unicode的汉字
 𠨧
 𪕌
 𨞓 有词条,但无汉大数据

两个抖音有数据,一个没有

总汇不定期可以免费免登陆查询2到4个,支持私人字,
或者直接准备100个总汇账号,每个账号每天查询100个词, :melting_face:
抖音没新ID了,我是找不到了,

1 个赞

@6lj6 别笑了,快来发挥你的洞察力和推理能力,按规律填数,
【汉语大词典】当前总ID77检测无头.txt (17.1 MB)

1 个赞
开始分析词典ID分布 - 2025-09-10 03:14:57
数据文件: D:\1词典\【汉语大词典】\【汉语大词典】当前总ID77检测无头.csv
加载CSV文件...
成功加载 622296 条记录
ID序列是否已排序: 否
对ID进行排序...

===== 基本统计信息 =====
最小ID: 7129400929031700512
最大ID: 7499417114953482277
ID范围: 370016185921781765
ID总数: 622296

===== 间隙统计 =====
最小间隙: 1
最大间隙: 21857100355764231
平均间隙: 594599323346.29
中位数间隙: 32768.0

最常见的2000个间隙值:
  间隙值: 16384, 出现次数: 269900 (占比: 43.3717%)
  间隙值: 32768, 出现次数: 148961 (占比: 23.9374%)
  间隙值: 49152, 出现次数: 90141 (占比: 14.4853%)
  间隙值: 65536, 出现次数: 47489 (占比: 7.6313%)
  间隙值: 81920, 出现次数: 21115 (占比: 3.3931%)
  间隙值: 98304, 出现次数: 8360 (占比: 1.3434%)
  间隙值: 114688, 出现次数: 3125 (占比: 0.5022%)
  间隙值: 131072, 出现次数: 1220 (占比: 0.1960%)
  间隙值: 147456, 出现次数: 563 (占比: 0.0905%)
  间隙值: 163840, 出现次数: 323 (占比: 0.0519%)

id_analysis_log_20250910_031457.txt (124.9 KB)

我用你的可能缺失+ 将作大匠统计的词头-现在手上各种mdx的词头,最后得到500多个词头
每天去总汇看看,能不能免费查询,100天多天就搞定了 :relieved_face:
可能缺失+汉大词头-已有词头.txt (5.4 KB)

不用逆向大神,有开发经验的一看就知道这种 7 开头的 ID 就是用 Unix 时间戳生成的,可能就是 Snowflake 算法或者改进版,这种算法每秒能生成数百万的 ID,是不可能破解或者总结规律推测出来的。

>>> import datetime
>>> datetime.datetime.fromtimestamp((7129400929031700512 >> 22) / 1000)
datetime.datetime(2023, 11, 12, 17, 33, 59, 345000)

聚典的数据很多 app 都买了,总有不上心的,不加密也不反爬,耐心等就是了。

1 个赞

怎么可能猜不出来,

我这150w产出1193个总不至于是遍历出来的吧

1 个赞

这个东西就算有算法,也不可能内置在js和app里(因为没有实际意义,不过是ID随机数生成器),显然只会在程序员公司的电脑里。能从哪里逆向呢?

2 个赞