汉字拼形组字系统

这是 Accelon 2021 的组字模块,我把它独立成检字和组字界面,希望对经常处理缺字的朋友有用。组字原理见汉字拼形芻议

  • 线上演示: Github.io腾讯云
    先试Github,连不上再用腾讯云,因有流量费。

  • 离线包(基本字及CJK A~G共87000字):1.8 MB 从Github下载
    从腾讯云下载

  • PC 端 解开直接运行 (纯 js+html程序,需 ES6 以上浏览器)

  • Android 11 之后,浏览器不能访问 file:/// ,需先将zip解开到手机内存,并用 File Manager Plus 以 http 模式开启。

9 个赞

腾讯云里记得设置超量暂停之类的。

1 个赞

有点意思
腾月鸟

邏羅寶
这三个字属于同一个要构建的字形,分别是:基字/构件/替字。替字是替换基字里的构件,这里就是用寶字替换邏里的羅字。

邏羅寶

六个字的也好理解:鵝鳥烏戰口火,每三个字分别是:基字/构件/替字。

鵝鳥烏戰口火a鵝鳥烏戰口火b

我看有峰夆電雨水这种五个字的,雨水这两个字是怎么判断他们和前三个字属于同一个构建的字形?

峰夆電雨水

先组成「峰夆電 」,其中,替字「電」也可以是拼形,
即将「電」替换成「電雨水」即得。
「雨」只关注是不是「电」的构成部分,它不必管「峰」的。
若是,则一直往下组合,若否,则停止组字。

1 个赞

感谢,明白了。

腾笼换鸟,好字。这证明我的猜想,新字会不造成识别的负担,不再造新字的原因是受限於技术,而不是想像力。

2 个赞

很好玩! :+1:

很有趣的工具。
不过我刚刚试了一下,输入【雷田电】,“电”就会溢到上面,又比如输入【雷田无】【雷田五】都会有类似的情况。但也有一些替字没有这个问题,比如【雷田水】【雷田木】等。我有点好奇这是怎么回事,为什么给替字留的空间不是固定的呢?

「显示字框」可以看到「雷」和「田」其实是满框,(字框和「雿」「雪」相比就很明显)
而glyphwiki 在组「雷」字时,下方的「田」会选择只占下方空间「变体」。
在汉字拼形,当「田」被替代的部件也有「只占下方空间之变体」的话,如「水」「林」等常用部件,就没问题,反之就会占满字框,也就是如上所述溢出的情况。
解决的方案有三个:
一)到glyphwiki 调整「雷」字框,工作量極大。
二)挑选字框较理想的作基字,如「雿」。缺点是很多理想字框的字都是罕用字。(可先到「字表」,输入「雷」再点附近的字。或者输入「雨」,点「字族」,看选合适的基字。)
三)最好的办法是,在系统内指定用「雿」来替代「雷」,这样在组字时,碰到「雷田x」时,会自动改为「雿兆x」。
这个工作量较小,而且每指定一个字,可以减少 30bytes 左右的数据量,我估计八万七千个汉字,至少一半可以替代。也就是可节约 1MB (目前是 4.5MB)。

2 个赞

久仰大神,重出江湖了。用过以前那个windows版本的组字工具,问题不大,新工具试了几个上下结构的字,发现重叠现象还是蛮多的,实现逻辑是不是不一样

是的,在codemirror 那个版本,实现动态组字的机制较复杂:替代部件得先依据每个笔划的控制点,算出「最小包含框」,并依此框重新计算比例。
新的方法简化许多,只是挖掉填入旧框,不改变比例。我的想法是,用改良数据的方式,代替很难做到完美的算法。

Glyphwiki产出是「花园字体」,可以免费下载。
至於组出来的字,生成字型不是问题,问题在要调用字形必须有一个固定的「码位」,
要麽是Unicode (新的字必须在Extension G, 0x30000之後) ,这个过程非常漫长,我们也没有主导权(汉字处理,日本人做得早,国际上的话语权也很大,近年不知情况有没有改善),招财进宝、陝西piang piang 麵 这样的字大概率不被收。这种情况就好比你生了小孩得跑到美国或日本费尽千辛万苦才上得了户口。
要麽放在造字区 (Private User Area),成了「黑户」,检索和输入都困难重重,也不利交換(你的造字区和别人的造字区不保证一样)。
拼形式解决了交换码的问题,固定的交换码是缺字问题的核心。
汉字该用字符串表达,就像英文单词一样,这样输入和检索都不是问题,这才是一劳永逸之道。

2 个赞

关于重叠提一个不专业的建议,是否可以增加一个代表位置信息的符号,比如要输入左讠右我,目前输入说兑我,会出现重叠,那么输入说兑我2,2代表右,出现在右边的我应该在glyphwiki有单独码位并且与正常的我有联系,只是不知道二者对应关系有没有什么规律

好像没什么规律,哈哈,那是否可以压缩,感觉压缩成三种可以覆盖绝大部分情形:扁形(上下),竖形(左右),以及四分之一大小

这个之前考虑过,但用「数字」控制组字会与其他数据相混,用「特殊符号」又不易输入,一直没想到好的解法。

如果对比例的变化不考究的话,大部份的字的确如此。只要将常用的偏旁部首,每个部首选几个合适的基字,可应付90%的缺字。

1 个赞