“這蚤晚”与“這蚤晩”相同吗?

“這蚤晚”与“這蚤晩”相同吗?我怎么也看不出来,但emeditor却认为它们有差,用python判断一下,也是False。
图片

用BabelPad。

BabelPad download

把字串复制到BabelPad中,选择字串,鼠标点菜单的“Convert”,选择“Characters to U+XXX”。结果:

“這蚤晚”与“這蚤晩”
“U+9019 U+86A4 U+665A”与“U+9019 U+86A4 U+6669”

两个“晚”字不同。

2 个赞

\u9019\u86a4\u665a
\u9019\u86a4\u6669

这个也可以

顺便借地问下,如果想在文本里,把两个晚字统一下,是用665A好还是用6669更普遍?怎么判断这种情况?

两位高啊!怎么没想到查编码呢,哈哈。但问题是,为啥会有这么相近以至肉眼看不出的两种写法?分别用在什么情境?
经shaoshi兄提示看出差别了,一般我们用的是“晚”,11画,那个12画。

1 个赞

一般上用的是U+665A的“晚”(中台日韓越)。

U+6669的“晩”(中台日韓):

《國際標準漢字字典》:
【晩】wan3 ㄨㄢˇ
1)同“晚”。

U+665A的兼容性高。U+6669就别用吧。

请教下中台日韓越这个是在哪查出来的?正常字体靠肉眼很难分辨出差别,大号字才看出来。如果再次遇到相似的文字,想自己查出来。

这个讯息在Unicode提供的资料库里就有,我导入自己的汉字资料库后,为了容易看,把本来的标签转换成了汉字。

Latest Version of the Unicode Character Database
All files for the most up-to-date version of the Unicode Character Database can be found at: Index of /Public/UCD/latest.
Unicode Character Database

1 个赞

刚才查了,在《汉大》中就分两个词头,并明确字形一旧一新。那个2版还注了u码

再次请教下是哪个标签能判断兼容性更好呢?这里标签太多了,看不懂。

https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=665A&useutf8=true
https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6669&useutf8=true

1 个赞

我用的应该是Unihan_IRGSources.txt,说明:

http://www.unicode.org/reports/tr38/

举例:

Property kIRG_VSource
Description The IRG “V” source mapping for this character in hexadecimal. The IRG “V” source consists of data from the following national standards and lists from Vietnam.

一个字假如存在于“kIRG_VSource”中,我就用Access的update query在该字中注明“越”。

是这样一个一个加进去的,用query做5次,不是人工打进去,可以很快做完。

这样有用,我可以知道有些汉字只有台湾在用。

Unicode资料库有《康熙字典》和《汉语大字典》等字典的页码,看这些词典是用哪个字,就可以知道哪个字是常用字。

BabelPad有妙用。

我的Access字书词典中的一串难字,有的无法直接检索,像这样:

1|肸
2|肹

把整个表的编号和汉字都导出,贴到BabelPad中,用上面的方法变成U+++。

1|U+80B8
2|U+80B9

把这个新资料重新导入到Access中成为一个新的表,旧表和新表用编号相连接,更新后就变成:

〖U+80B8〗肸
〖U+80B9〗肹

这样,可以用别的方法查到U+++,检索U+++,就可以找到疑难汉字了。

感谢指点,查询了下这两字对应的IRG来源:

#6669
kIRG_GSource、kIRG_JSource、kIRG_KPSource、kIRG_KSource、kIRG_TSource

#665A
kIRG_GSource、kIRG_HSource、kIRG_JSource、kIRG_KPSource、kIRG_TSource、kIRG_VSource

这样看起来,665A的数据来源确实比6669多,要是这个数据库能直观的标注哪个是常用字会更方便些。

IRG source fields:

kIRG_GSource (China and Singapore)
kIRG_HSource (Hong Kong SAR)
kIRG_JSource (Japan)
kIRG_KPSource (North Korea)
kIRG_KSource (South Korea)
kIRG_MSource (Macao SAR)
kIRG_SSource (SAT Daizōkyō Text Database Committee)
kIRG_TSource (TCA)
kIRG_UKSource (UK)
kIRG_USource (UTC)
kIRG_VSource (Vietnam)

1 个赞

仔细看,右下角是个单独的儿字;另一个是类似免字的连笔一撇。

看《国际标准汉字字典》就可以知道哪个是常用字。只说“X同Y”而不解释的,Y是常用字。

《國際標準漢字字典》:【晚】wan3 ㄨㄢˇ
1)太阳落了的时候:~景。~霞。~会。~报。
2)一个时期的后段,在一定时间以后:来~了。~年。~期。~节。~婚。
3)后来的:~生(旧时文人对前辈的自谦)。~辈。
4)姓。

《國際標準漢字字典》:【晩】wan3 ㄨㄢˇ
1)同“晚”。

我这个《國際標準漢字字典》应该是从stardict导入Access的,应该和本坛这个同源:

1 个赞

你那里看不出区别吗,我这边很明显啊:

1 个赞

眼神不好+没往这里想 :sweat_smile:

再看看这两个:

U+FF31
UTF-8: 0xEF 0xBC 0xB1
FULLWIDTH LATIN CAPITAL LETTER Q
Q
U+0051
UTF-8: 0x51
LATIN CAPITAL LETTER Q
很无聊!

汉字 和 kanji 的区别
日语 ばん ba n 晩

中文 晚

2 个赞

日繁简

歩步步 walk - step - ho - bu - aruku
毎每每 every - - mai - -
汚污污 soil - dirty - get dirty o - kegasu - kitanai
拝拜拜 worship - humbly - ogamu - hai -
巻卷卷 roll up - volume - roll kan - maku - maki
帯带带 belt - region - to wear obi - tai - obiru
鋭銳锐 sharp - - ei - surudoi -
黒黑黑 black - - koku - kuro - kuroi
値值值 value - price - to value atai - chi - ne
晩晚晚 evening ban
楽樂乐 music - comfort - ease gaku - raku - tanoshii
関關关 concern - barrier - kan - seki -
髪髮发 hair - - kami - hatsu -
戦戰战 war - - ikusa - sen - tatakau
効效效 effect - efficancy - kiku - kou -
塩鹽盐 salt - - en - shio -
糸線线 thread - - ito - shi -
栄榮荣 glory - flourish - ei - sakaeru - hae
軽輕轻 light - light (weight) - karui - kei - karoyaka
産產产 childbearing - product - birth ubu - san - umu
圧壓压 pressure - - atsu - -
発發发 depart - start - happen hatsu - abaku - tatsu
変變变 change - abnormal - strange kaeru - hen - kawaru
週周周 week - - shuu - -
囲圍围 enclose - surround - i - kakomu - kakou
図圖图 map - drawing - plan zu - to - hakaru
売殼壳 sale - sell - bai - uri - uru
姉姊姊 sister - older sister - shi - ane -
帰歸归 return - arrive - come home ki - kaeru -
悪惡恶 bad - evil - aku - warui -
収收收 obtain - to store - pay (taxes) shuu - osamaru -
遊游游 play - idle - playful asobu - yuu -
絵繪绘 picture - - e - kai -
観觀观 view - - kan - -
覚觉觉 remember - understand - oboeru - kaku -
遅遲迟 slow - late - okureru - chi - osoi
験驗验 test - examine - effect ken - tamesu -
気氣气 spirit - energy - power ki - ke - iki
円圓圆元 circle - yen - money en - marui -
読讀读 read - - doku - yomu -
駅驛驿 station - (train) station - eki - -
広廣广 wide - broad - big kou - hiroi - hiromeru
転轉转 revolve - turn - turn around ten - -
辺邊边 vicinity - neighborhood - atari - hen - be
営營营 manage - barracks - itonamu - ei -

https://www.thejapanesepage.com/node/kanji/dictionaryframe.htm
用excel和notepad++和python处理, 先把英语用google翻译成简体和繁体再用python比对, 然后手动编辑, 可能有漏的
かんじ.7z (372.1 KB)

2 个赞