日本人抱怨日文字符被中文侵蚀

连续的日文字符串里经常有中文字符(字体)乱入。

出现这种情况的原因是,系统默认的语言偏好里,中文比日文的优先级更高。

1 个赞

这让我想到最近发现的让人有点绷不住的 Google 行为。
在我的(唯一的)安卓设备上把系统语言调成日语之后,登录了同账号的 Chrome 把汉字字符(CJK Unified Ideographs)优先级从大陆字形调成了日本字形。这造成一个和楼主说的情况相反的情况,就是中文网页混杂进来很多日文字形字符。

3 个赞

历史遗留问题,当年大概是为了节省unicode的码位,把CJK很多字形差别较小的汉字都用同一个码了。

1 个赞

以前使用 Linux 桌面的时候深受中文夹杂日文字体的困扰。

1 个赞

最新的Unicode 15.0里有149186 个字符,中文字符有97058个,要是按字形编码,会膨胀的更厉害。

这么说很没有意思,汉字一直在演变,异形字非常多,我们只不过是选了其中一种而已,不好说哪个更标准。比如上面例子里的“直”,《说文解字》里就是日文的这个字形。

2 个赞

常用汉字就6000多,日本人常用的汉字就更少了,只有2000多,更不要说大部分是繁体或是与我们不同的简化方案,本来就长得不一样。真正长得差不多又不同的常用字撑死几百个,没准连100个都不到。不常用的没人在乎。

1 个赞

Unicode里没有常用的概念。

那么你想表达什么意思呢,我看你前一句话好像在说按字形编码会膨胀得厉害(以至于unicode编码不够用?按理说unicode15是不可能不够用的),我说实际上要修正的只有几百个,甚至只有几十个,根本不会膨胀。那么你接一句unicode没有常用的概念是啥意思呢。
当然了,不修正主要是因为会导致兼容问题,所以我说是历史遗留问题。

字形分开才是历史遗留问题。Unicode里没有常用的概念是说Unicode不知道哪些是常用字,中日韩港台都有自己的常用字标准,也不可能这么处理,因为汉字里多一划少一笔勾撇捺不一致的情况太多了。

Unicode按字编码是正确的,按形编码不利于文字的传播。现在繁简搜索(一对多,异体字)都不好处理,要是把同一个字按形拆分编码就更无法搜索了。

1 个赞

是的,定了一套合并和不合并的标准,实际上做的时候又稀里糊涂的,有时候合并有时候又不合并,总之就是一团浆糊。

1 个赞