⿱十口⿰亻弋⿰氵又⿰讠吾⿰讠司⿱册𠔀

说明:

  • 感谢 amob、bud 分享,感谢 匿名1684 录入 pua 194个。

下载:

简介:

7 个赞

有些 pua 码,辞源里也有,挪了过来,就是不知道是否对应同一个字。:puas_Auto.txt (3.0 KB)

实于外厩
或方火宅,乍拟 河
第一行的第一个PUA字和第二行的PUA字是同一个码,但一个该是𫘦,一个该是𫘝。
楼主看看数据提取有没有问题。

是我眼花看错了,第一行有连续4个PUA字,数据没问题 :grinning:

粗看一下,这个数据比之前的有改进。如补上了“凤凰”条,“𫘧耳”条也补足了书证。

感谢分享,pua 影响后面的词头提取,现在的词头有额外空格、搜不到的问题。

这本《古代汉语词典(第2版)》的修订说明和凡例中都写明《通用规范汉字表》以外的字不做类推简化,但是长期类推简化的惯性还在。目前录入约130个PUA字中,已有𫓨𰡔𰡏𱅍𦲄𫄡𮥠𱈕𱃚这9个表外类推简化字。有字头未类推简化,但在其他词条的书证中类推简化者,更有在同一条目中直接双标的:

1 个赞

估计是商业经费不够。 :grin:

有标准简繁映射表和类推表的话,for 循环写个代码就能让它保证,哪些类推、哪些不类推。

又发现了这个,本书造字人员真是神乎其技了,发明了半繁半简的新字。

PUA已输入,有若干未被Unicode收录的字形,大部分是异体字。
puas.txt (3.8 KB)

2 个赞

发现一处录入错误:
“”: “𫓨” x
“”: “𬬩” √

确实打错了。谢谢指正!

一些词条官方数据就是错乱的,比如月下老人等等。有上千条是数据处理不当造成的,比如,万岁千秋,丹砂。原始数据单字包含异体、繁体,这部分也加到索引就好了。

1 个赞

感谢数据校验,在抓取现汉7发音之后,再更新该词典。

替换数据整理如下:

{
    "": {
        "to": "𬴂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬴃",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘝",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘨",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬳶",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬳿",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬳵",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬳽",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫓧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𨱑",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫔎",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬬸",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬭚",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬭁",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫟹",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬬱",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫄨",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘓",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬙂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘭",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘘",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬙊",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘬",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬙋",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘡",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬸚",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬸦",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬸣",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫐓",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬨎",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬣡",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬤊",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬣙",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫚖",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬶍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬶨",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬶠",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬺓",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬹼",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬺈",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫠜",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬯀",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬯎",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬮱",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬍛",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫞩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬞟",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "刍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫶇",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫫇",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫸩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬇙",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬱟",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫖮",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬱖",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫖯",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫮃",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬀪",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬊈",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬉼",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𰻆",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𰡔",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𰡏",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬪩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬟽",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬀩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬒈",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿰扌晉]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪣻",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫔶",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬇇",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪩘",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪟝",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫄧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫇭",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𦝼",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬴊",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫐄",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫠆",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫄸",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬍡",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫄷",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘪",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫍲",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫐐",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫢸",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫷷",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫰛",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘦",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫘬",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬂩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬨂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪾢",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫖳",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "䀹",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬸘",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫌀",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘫",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬘯",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫍣",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬤝",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬬩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬭬",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬭼",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫑡",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫓶",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫓹",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬭤",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫔍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫗴",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫗧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬊤",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱丞巳]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬤇",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿳刀𫩏⿺儿丶]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫍯",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𣷽",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "虩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱅍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "",
        "lvl": "3",
        "note": "【注意:此处是一图形,似未收入Unicode,全宋体PUA为󰶤】"
    },
    "": {
        "to": "𦲄",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫄡",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𮥠",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𦒃",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱈕",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "栃",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱃚",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𰰆",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "车",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "乂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𩎟",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱埶皿]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𰱫",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫠆",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪩖",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪇱",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𣣷",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬰎",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿰忄奭]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "㢧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𡍮",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱸫",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬌾",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𤮀",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𣎗",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱍐",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿰⿱臼匕殳]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "䱍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "摾",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "賮",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "匘",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "㜸",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫲕",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫺨",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "鰞",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𧓉",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𠎱",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "濳",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬳩",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𪚮",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𭣳",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱宀儿]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𤅢",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "㕘",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "襂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "虪",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫲙",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𥶽",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𤜂",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "彣",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "熈",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𫋇",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𥜽",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "䬙",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𩾐",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𬡵",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "卝",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "䱍",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱⿲人丨人兀]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "䎀",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𩸑",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𱇧",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𮩴",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱山𱰭]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "㠥",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿲忄束頁]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𣽉",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿰氵玆]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "谻",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "𨛬",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿱⿱士冖⿱一几]",
        "lvl": "3",
        "note": ""
    },
    "": {
        "to": "[⿰木𱰭]",
        "lvl": "3",
        "note": ""
    }
}

想修改的话请详细讲解下,我的水平看不出来哪里错了。

问题记录:

  1. lxml 会自动将属性值改为小写,判断时写对。
  2. 属性内pua不能再加标签,只能直接替换,如 <MARK note="通“ ”,长针">秫</MARK>

月下老人那个是部分文字前后颠倒了吧。
误:
“天下之婚牍耳。”又问布囊中赤绳何用,回答说:“以此系夫妇之足,虽仇家异域,此绳一系之,终不可易。” 《续玄怪录·定婚店》载,有一人名叫韦固,夜经宋城,遇一老人倚布囊坐于阶上,向月检书。固问所检何书,回答说
正:
《续玄怪录·定婚店》载,有一人名叫韦固,夜经宋城,遇一老人倚布囊坐于阶上,向月检书。固问所检何书,回答说:“天下之婚牍耳。”又问布囊中赤绳何用,回答说:“以此系夫妇之足,虽仇家异域,此绳一系之,终不可易。”

1 个赞

重做了一版:替换了 PUA,基本能用。

todo:繁体、异体提取,词汇提取,错误修改,更多css。


guhan240720.css (7.6 KB)
guhan240720.mdx (10.1 MB)

1 个赞

本次数据优于此前某笛数据,再举一个有代表性的例子。此前数据中此类缺漏不少。


只是这里带圈的“参”字,原书是“也作”。不知道数据里面“参见”和“也作”的标记有没有混在一起,如能区分开最好。

这本和现汉类似,结构复杂,属性众多,且有多余空格