得益于某热心坛友提供部分错误词头可靠xml数据
数据可靠性大幅提升,以下数据全改为jd xml数据源
- 200余条个人OCR数据
- 3.6W 采用光盘版2.0数据
- 4100多条抖音可能提取submean错误的数据
得益于某热心坛友提供部分错误词头可靠xml数据
数据可靠性大幅提升,以下数据全改为jd xml数据源
@hua 可给L兄加大网盘容量
另外,既然现在有那么多AI页面自动分析模块、大词典的词头也越来越完备,是时候制作切词版了。这样不仅更可靠,给文本版捉虫也会方便很多。

有私人字跳转Unicode字𨞓,但是Unicode字𨞓没词条
有xml数据最好,没xml可以先用这个顶上,反正是总汇的,有图有文
用的是私有字,私有字太多了,必然存在大量无法检索。除非有人整理出所有私有字的替换表。
这也说明了存在一些无效的@@@LINK需要清理。
ok,复制补上了,
搞定了
我的私人字,总汇可查,guji不可查
你的私人字,guji可查,总汇未知
Unicode字𨞓,该条缺失,
直接补两条,一步到位
强烈顶
![]()
感谢Leon兄的不懈努力 若真能集大成者再好不过 否亦瑕不掩瑜 ![]()
提建议我也来凑个热闹 希望Leon兄不要嫌烦呀 ![]()
无论如何再次感谢Leon的大作 惊喜不断 ![]()
刚刚又复核了一下 『孺慕』条并无缺失 只是引证顺序于原版有所调整 无伤大雅 诸如『号慕』『怨慕』亦如此 是我看走眼了 请忽略 ![]()
索引差了很多吧,完整的索引还没人做过。
可以把没具体页面的词语统一扔到单字页面,投机取巧。
再把词头补充一下,
私有字,繁体,简体:,龜,龟
两种私有字和Unicode字:,,𨞓
繁体,简体:性業,性业
再来个模拟单栏
页眉有页面跳转,有字体跳转,私有字(总汇,guji),Unicode字,繁体,简体
彻底打通私有字,繁体字,简体字,总汇,guji,文字,图片 ![]()
我用gd-ng打开,没有下面的切词。
一时热血,还跟眼睛过不去。后面扔着了。
你应该挑18楼那个。后面shaoshi修正了一些错误。
确实,看来词典界皇冠上的明珠也要被拿下了,
刚看,发现不是一个文件。搞错了。
闻一下这个是哪个版本
这是我自己做的demo,就切了这一个词 ![]()
想了一下思路,也好做,从光盘2.0,和J大统计的字头页面,词头页面,Unicode17,整理出页面信息,生成页眉代码和页面信息代码,分别插入页眉和</>上面,整页版应该是最好做的,加个js就可以整个模拟单栏,切词版估计要花点功夫,
难怪没见过,其实整页版就可以。切词版废(费)人。期待图文混合整页版。 ![]()