图片词典故訓匯纂文本化过程记录

别用台标字体



由于unicode的认同和分离,两个字形一个码位,一个字形两个码位都是常见的



甚至G和T战术换家


对于小学类数据需要避免这种干扰。
建议使用字统网部件查字,可以看到码表字形
zi.tools


建议使用文津宋体
takushun-wu/WenJinMincho: 可免费商用的大字符集宋体字库,以OFL协议发布。/A large character set fonts in Songti(Mincho) style. Licensed under the SIL OFL 1.1.
建议与G源字形不合的使用IDS。

你说的一会装下字体看下

现在好多东西还叫不准。就拿词头来说,一开始觉得非基本区的拆开可以查到就行了,所以录入是就简单按自己理解的


再加个这东西就完事了。

可有的字根本不是那回事,所以现在正翻回头按这个网站的在录入一遍,可是这个网站也不是都拆开的,没有的按(字統网)拆字录入呢。


有些还是叫不准该用哪个(着手弄这个就发现了,挠脑袋也不行)
顔 顏


U+9854
UTF-8: 0xE9 0xA1 0x94
CJK Unified Ideographs
Unicode 脚本: Hani (Han)
Unicode 的一般类别: Lo (Other Letter)
文件位置:168 字节


U+984F
UTF-8: 0xE9 0xA1 0x8F
CJK Unified Ideographs
Unicode 脚本: Hani (Han)
Unicode 的一般类别: Lo (Other Letter)
文件位置:171 字节

“上”字头的119项

而我这觉得靠谱信息查了下


凡例里写的

我咋保证啊???我也没看到原书,按纸书印刷那可简单了(像这样得按纸书印的绝对不是最好的选择,但也是目前唯一的办法)

你楼上那朋友也说要看下引用书目表


就还拿“颜”字来说我这块都没法下手。


我理解的不是简单的一替换的事,反正没想好咋弄。

不想由于个人的主观二次引入错误。

哈哈哈,先玩词头吧(弄错了也好改 :blush:)。

膜拜老师!辛苦了!

查询当前进度

校对、补标签,今年过年没弄。总共这些

平时没时间,你有时间就拿去。最好能保持我这样的然后返回我一份我做个比对(也不是必须的)

要的话圈我下我私给你

还用Em的有知道跨行高亮的多个的么?我就会这一种。

其余的我都这样配着弄的

求一份。多謝!

你的标签弄得好复杂,其实只要换行对,剩下的都可以用正则来处理。
出处匹配到句号和书名号之间,^(\d+♦.+?。)(《.+)$替换为\1♣\2♠,即使有错,也不会太多。

那个就是为了高亮糊弄人的玩意、别当真

我弄的:
^\1​:spade_suit:
ã\1ç说
ñ\1õ音
^\1​:diamond_suit:
:diamond_suit:\1​:club_suit:
:club_suit:\1​:heart:
就这点东西。

保持和排版一致我就没弄直再按标签打断,反正从头开自己始弄的都清楚,再装回去每个字就连标点都是对位的。

后来慢下来就是一边校对一边看,感觉缺好多应该有的东西为了排版和体量人为的删减了不少,反正就是不过瘾的那种。(我记着好像在哪看过过报道,出版社都着手出版了中间又提出要求原作者做了内容缩减)

这本真的挺不错

标签是手动补的吗,感觉非常容易出错,现在有新模型了,文字可以多ocr几个版本让ai来预处理,标签也可以让ai写程序解析。


(三)的拼音有问题,应该是chāi,用这个正则排查下[a-z\x{00c0}-\x{02af}] +★(?![《\n\(\)])

那个已知的小问题了,有ocr时错误、也有最初正则弄错的。
大体定下后除了查找就很少批处理了。


像这种靠正则啥的根本不靠谱,只能靠肉搏,有的释义真的好多行才是例。还有兒↔皃(大面积)、囗↔口(小面积)的大小圈的事都得靠手翻才是真问题,那个i 、|问题有,但顺手改了就行了。

觉得这本只有下手去弄才最靠谱,什么AI啥的也就是印刷不清楚的地方按前后左右信息能查出它是个嘛。使不上啥劲