汉大问题集合

我从我整理的“光盘·抖音版汉大正编数据混标词条表v3.xlsx”光盘、抖音两版词条重合度非百分百的部分抽选500词,与辞海网汉大词条数据进行匹配,得出的差异词条数为140条,占比28%。按此推估,全书(正编+ 补编[订补])复音节词条中抖音、辞海两版数据差异词条大概为4万条左右。以下是样本集的差异词目,通过词条内容比对可以大致推断抖音版数据仍然存在的问题——

【一哄】
【一并】
【上座】
【不吝】
【不睹事】
【不蠱】
【不隄防】
【中兄<2>】
【中准<2>】
【中和】
【中山玉兔毫】
【二老】
【交朋友】
【何况】
【使不得】
【使唤】
【侍教】
【侍酒】
【倏忽】
【免責<2>】
(xml)【入賬】
【凄凄<1>】
【凄凉】
【凄切】
【凄咽】
【凄怨】
【凄惋】
【凄惶<1>】
【凄楚】
【凄然】
【凄酸】
【刃具】
【分釵】
【刑滿】
【剋賊】
【半床】
【叛散<1>】
【口惽】
【古朴】
【吐番】
【周匝】
【周日】
【周遭】
【回逆】
【土豆】
【堤岸】
【塌架】
【壁橱】
【天上】
【太平斧】
【奶奶】
【奶子】
【安期】
【家具】
【尿胞】
【展品】
【山坂】
【并列】
【志向】
【忽恍】
【恰纔】
【憋古】
【懸欠】
【扇車】
【打并】
【押韵】
【推托】
【搭拉<1>】
【改嘴】
【方纔】
【旋子<1>】
【旋子<2>】
【普泛】
【暗淡】
【暴棄<1>】
【暴棄<2>】
【杳渺】
【棒冰】
【椶絲】
【標牌】
【樟油】
【櫃子】
【池潭<1>】
【汲冢古文】
【沾污】
【沾洒】
【浮夸】
【涉疑】
【溟蒙】
【漫游】
【火炮】
【炊帚】
【炊烟】
【炕床】
【炮子】
【炸毛】
【烜耀】
【烽烟】
【犯奸】
【玄弋】
【玉卮】
【王菩】
【畫麒麟】
【疏散】
【白生生】
【白附】
【硫黄】
【碧碗】
【笤帚】
【粗拙】
【羊肚子手巾】
【義診】
【翻回】
【考核】
【般旋】
【菵米】
【蛈蝪】
【蜜筒】
【螹離】
【衛生球】
【裁决】
【襒裂】
【趲那】
【追征】
【追踪】
【適纔】
【邅回】
【重叠】
【重音<2>】
【金气】
【雄夸】
【雕像】
【雕斫】
【非烟】
【鮮卉】
【鴻蒙】
【鵰鎪】
【鹿寨】
【黑暗】
【鼊嶼】

具体存在的问题,大致有:
1.(“一哄”例)辞海汉大词条中存在跨词条引用者(即存在异形词条者),正词条、引用词条在同一检索界面呈现,分界尚属明晰。而抖音汉大词条却人为割裂拼接,混淆二者边界。
2.(“不吝”例)辞海汉大词条可锚定正词条内容,而抖音汉大词条却“以宾僭主”,以异形词条内容替代正词条内容。
3.(“不蠱”、“交朋友”例)辞海汉大词条引用书证中的著者、书名(篇目)项,在抖音汉大词条中存在一定程度的形变、缺失。
4.(“不隄防”例)辞海汉大词条存在关联项者(以“参见-见-亦作-亦称-亦省称-亦省作-同-详”等领首),抖音汉大词条却存在缺漏。
5.()抖音汉大词条相较于辞海汉大词条存在各义项部分释义内容缺失(引申义、比喻义、亦指义、特指义、参阅项等等)。
6.(“中山玉兔毫”例)以上若干问题的混合。

搞一个词头完整准确的图片版或切词版最好

4 , 5问题已知

等有xml数据了,就切过去

例证 3的参阅部分被遗漏。不知是否属于已知问题。

对的,统归 子释义submean提取错误

不错不错,现在完成度在百分之九十以上了 :face_savoring_food:

幡傘|幡伞,这对跳转有问题,另外问下繁简跳转不应该是从原文数据中提取的吗?怎么会多出来这一对的?

抖音的词头,重定向没有处理好,明天再小更新一下
纸版词头是 幡織

󰒜人|簭人,是同一个词条。

这是pua字体和新unicode的问题,文本不相等,后面优化下匹配算法

“簿録”, “simplified”: “簿录”,原数据有简体标识的,能不能在词条里也标出来?跳转只能搜索用,不方便查看,二次提取还有可能出错,直接在词条里标出来更方便,原书的单字也加了对应的简体。

“䃺而不鄰,涅而不滓” 这条重复了。

行,第7个义项,粉圈里面有方块,还是因为缺字体了?


电脑正常显示

那请教一下,我缺哪个字体?

多音字跟书上的顺序不一致。

哪些词条有这个问题?

挑、長、重、和、了……多了去了。

这个原数据的顺序就是固定的,作者没有改动这里。