⺡𦰩 ⾔吾大词典 2025.09 (2025.10.20 六订+)

得益于某热心坛友提供部分错误词头可靠xml数据
数据可靠性大幅提升,以下数据全改为jd xml数据源

  • 200余条个人OCR数据
  • 3.6W 采用光盘版2.0数据
  • 4100多条抖音可能提取submean错误的数据
4 Likes

@hua 可给L兄加大网盘容量

另外,既然现在有那么多AI页面自动分析模块、大词典的词头也越来越完备,是时候制作切词版了。这样不仅更可靠,给文本版捉虫也会方便很多。

image
有私人字跳转Unicode字𨞓,但是Unicode字𨞓没词条
有xml数据最好,没xml可以先用这个顶上,反正是总汇的,有图有文

用的是私有字󰃕,私有字太多了,必然存在大量无法检索。除非有人整理出所有私有字的替换表。
这也说明了存在一些无效的@@@LINK需要清理。

ok,复制补上了,
搞定了
我的私人字,总汇可查,guji不可查
你的私人字󰃕,guji可查,总汇未知
Unicode字𨞓,该条缺失,
直接补两条,一步到位

强烈顶 :smiley: :smiley: :smiley:


可以搞,光盘有页码

1 Like

感谢Leon兄的不懈努力 若真能集大成者再好不过 否亦瑕不掩瑜 :heart:
提建议我也来凑个热闹 希望Leon兄不要嫌烦呀 :squinting_face_with_tongue:

  • 与众人不同 除抖音汉语中汉语大词典的部分 我亦对其中的『常用释义』和『释义』部分青睐有加 不因别的 总觉得有些词条汉语大词典没有而它却含有 而且还带有经典小故事 不知其词典来源 但觉很有意义 弃之可惜 注意到Leon兄在汉语大词典中因为与其不相关把它们都删掉了 只保留了『详细释义』 不知Leon兄是否有雅兴把之提取出来单独做本词典出来 此为不情之请 :innocent:
  • 另 发现有些词条的第一条释义缺失了源流引证 抖音汉语亦如此 如词条 『孺慕』等

无论如何再次感谢Leon的大作 惊喜不断 :glowing_star:

刚刚又复核了一下 『孺慕』条并无缺失 只是引证顺序于原版有所调整 无伤大雅 诸如『号慕』『怨慕』亦如此 是我看走眼了 请忽略 :face_savoring_food:

太厉害了!终于有聚合版本了,或者套用二十四史的说法,终于有百衲本的HYD了! :laughing:赶紧下载了试试看,再反馈。

Leon大好棒!我爱Leon!

1 Like

索引差了很多吧,完整的索引还没人做过。

可以把没具体页面的词语统一扔到单字页面,投机取巧。
再把词头补充一下,
私有字,繁体,简体:󰍍,龜,龟
两种私有字和Unicode字:,󰃕,𨞓
繁体,简体:性業,性业
再来个模拟单栏
页眉有页面跳转,有字体跳转,私有字(总汇,guji),Unicode字,繁体,简体
彻底打通私有字,繁体字,简体字,总汇,guji,文字,图片 :clap:

我用gd-ng打开,没有下面的切词。

一时热血,还跟眼睛过不去。后面扔着了。

你应该挑18楼那个。后面shaoshi修正了一些错误。

确实,看来词典界皇冠上的明珠也要被拿下了,

刚看,发现不是一个文件。搞错了。

闻一下这个是哪个版本

这是我自己做的demo,就切了这一个词 :laughing:
想了一下思路,也好做,从光盘2.0,和J大统计的字头页面,词头页面,Unicode17,整理出页面信息,生成页眉代码和页面信息代码,分别插入页眉和</>上面,整页版应该是最好做的,加个js就可以整个模拟单栏,切词版估计要花点功夫,

难怪没见过,其实整页版就可以。切词版废(费)人。期待图文混合整页版。 :waving_hand:

漏序号,而且序号和纸本有出入