汉大问题集合

汉语大词典 2025.09 (数据修订中…) - 汉汉 - FreeMdict Forum

抖音数据问题总结

  • 子义项问题

    • 参见,见词条,其他说明内容等内容缺失

    • 提取归类错误

    • 子义项与例证不对应

  • 图片问题

    • 图片缺失
    • 删除部分图片数字
  • 数据问题

    • 缺少反切数据
    • 繁简体词条内容重复
    • 部分数据不对

最终选择:

改用xml数据

错误处理方案

2 个赞


“三监”以前提过

“”“”“”“”
4个私有字,前两个字查询有结果没显示

这是汉大PUA字体重定向为unicode字,用于其他汉大词典兼容互查
不知道为什么,有几个PUA字,无法正常跳转

	𨞓

“性業”修了,“爱手反裘”修了,抖音缺的4个私有字也补了,
再从“㗜㗜㗇㗇”补到“󰅘𩵻”就好了,好奇怪,𪙫齶都有,为啥芊芊和吴钩没有
󰁇󰁇
󰁳󰁳
󰃣󰃣
󰅘𩵻就差这4个了,中间4个guji网都没有
image

请提供缺失词头,我看看

如果可以,请提供文字版 或者 ocr校正 辞海官方网站-字词、成语、百科一站式检索平台 文本

之前缺失的 ocr加校正花费了大量时间

4条数据已处理

建议参考辞海的数据

辞海还缺pua字体,直接不显示了,OCR吞了两个字


去总汇,每50天可以查询3个词,可以复制,支持私人字,

我的早已经限制
前期pua字体也是总汇的

guji也不错啊,了解的就这么几个词了,其他的还得专业的来辨析

汉字错误,改用焕新版数据

难道数据是ocr的?

图片字体缺失 辞海,古籍有同样问题

古籍直接删数据,辞海有图片,但因协议问题,无法正常显示,图片命名不同

求个正确的图,不知道总汇里有没有

这个去图片版截图就行了

抖音特有问题

单个释义的如果有多个非例证会合并子释义,这个操作会引入很多问题

  • 例证无法对应释义 (只看释义,不影响)
  • 抽取submean数据丢失
    性業 三監 就是典型的例子,一看就是根据html标签截取的,数据都丢了

抖音特有问题二

源数据处理时,删除数字,甚至把图片链接里的资源包含的数字都移除了

辞海问题,图片黑底

密厘

怪不得看起来怪怪的,纸版就错误了

1 个赞

鲁迅全集(第07卷:集外集、集外集拾遗) | 鲁迅 | download on Z-Library

请教大佬:“内”词条,有字显示不了,我缺哪个字库?