“這蚤晚”与“這蚤晩”相同吗?我怎么也看不出来,但emeditor却认为它们有差,用python判断一下,也是False。
用BabelPad。
BabelPad download
把字串复制到BabelPad中,选择字串,鼠标点菜单的“Convert”,选择“Characters to U+XXX”。结果:
“這蚤晚”与“這蚤晩”
“U+9019 U+86A4 U+665A”与“U+9019 U+86A4 U+6669”
两个“晚”字不同。
\u9019\u86a4\u665a
\u9019\u86a4\u6669
这个也可以
顺便借地问下,如果想在文本里,把两个晚字统一下,是用665A好还是用6669更普遍?怎么判断这种情况?
两位高啊!怎么没想到查编码呢,哈哈。但问题是,为啥会有这么相近以至肉眼看不出的两种写法?分别用在什么情境?
经shaoshi兄提示看出差别了,一般我们用的是“晚”,11画,那个12画。
一般上用的是U+665A的“晚”(中台日韓越)。
U+6669的“晩”(中台日韓):
《國際標準漢字字典》:
【晩】wan3 ㄨㄢˇ
1)同“晚”。
U+665A的兼容性高。U+6669就别用吧。
请教下中台日韓越这个是在哪查出来的?正常字体靠肉眼很难分辨出差别,大号字才看出来。如果再次遇到相似的文字,想自己查出来。
这个讯息在Unicode提供的资料库里就有,我导入自己的汉字资料库后,为了容易看,把本来的标签转换成了汉字。
Latest Version of the Unicode Character Database
All files for the most up-to-date version of the Unicode Character Database can be found at: Index of /Public/UCD/latest.
Unicode Character Database
刚才查了,在《汉大》中就分两个词头,并明确字形一旧一新。那个2版还注了u码
再次请教下是哪个标签能判断兼容性更好呢?这里标签太多了,看不懂。
https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=665A&useutf8=true
https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6669&useutf8=true
我用的应该是Unihan_IRGSources.txt,说明:
http://www.unicode.org/reports/tr38/
举例:
Property kIRG_VSource
Description The IRG “V” source mapping for this character in hexadecimal. The IRG “V” source consists of data from the following national standards and lists from Vietnam.
一个字假如存在于“kIRG_VSource”中,我就用Access的update query在该字中注明“越”。
是这样一个一个加进去的,用query做5次,不是人工打进去,可以很快做完。
这样有用,我可以知道有些汉字只有台湾在用。
Unicode资料库有《康熙字典》和《汉语大字典》等字典的页码,看这些词典是用哪个字,就可以知道哪个字是常用字。
BabelPad有妙用。
我的Access字书词典中的一串难字,有的无法直接检索,像这样:
1|肸
2|肹
把整个表的编号和汉字都导出,贴到BabelPad中,用上面的方法变成U+++。
1|U+80B8
2|U+80B9
把这个新资料重新导入到Access中成为一个新的表,旧表和新表用编号相连接,更新后就变成:
〖U+80B8〗肸
〖U+80B9〗肹
这样,可以用别的方法查到U+++,检索U+++,就可以找到疑难汉字了。
感谢指点,查询了下这两字对应的IRG来源:
晩#6669:
kIRG_GSource、kIRG_JSource、kIRG_KPSource、kIRG_KSource、kIRG_TSource
晚#665A:
kIRG_GSource、kIRG_HSource、kIRG_JSource、kIRG_KPSource、kIRG_TSource、kIRG_VSource
这样看起来,665A的数据来源确实比6669多,要是这个数据库能直观的标注哪个是常用字会更方便些。
IRG source fields:
kIRG_GSource (China and Singapore)
kIRG_HSource (Hong Kong SAR)
kIRG_JSource (Japan)
kIRG_KPSource (North Korea)
kIRG_KSource (South Korea)
kIRG_MSource (Macao SAR)
kIRG_SSource (SAT Daizōkyō Text Database Committee)
kIRG_TSource (TCA)
kIRG_UKSource (UK)
kIRG_USource (UTC)
kIRG_VSource (Vietnam)
仔细看,右下角是个单独的儿字;另一个是类似免字的连笔一撇。
看《国际标准汉字字典》就可以知道哪个是常用字。只说“X同Y”而不解释的,Y是常用字。
《國際標準漢字字典》:【晚】wan3 ㄨㄢˇ
1)太阳落了的时候:~景。~霞。~会。~报。
2)一个时期的后段,在一定时间以后:来~了。~年。~期。~节。~婚。
3)后来的:~生(旧时文人对前辈的自谦)。~辈。
4)姓。
《國際標準漢字字典》:【晩】wan3 ㄨㄢˇ
1)同“晚”。
我这个《國際標準漢字字典》应该是从stardict导入Access的,应该和本坛这个同源:
眼神不好+没往这里想
再看看这两个:
Q
U+FF31
UTF-8: 0xEF 0xBC 0xB1
FULLWIDTH LATIN CAPITAL LETTER Q
Q
U+0051
UTF-8: 0x51
LATIN CAPITAL LETTER Q
很无聊!
日繁简
歩步步 | walk - step - | ho - bu - aruku |
毎每每 | every - - | mai - - |
汚污污 | soil - dirty - get dirty | o - kegasu - kitanai |
拝拜拜 | worship - humbly - | ogamu - hai - |
巻卷卷 | roll up - volume - roll | kan - maku - maki |
帯带带 | belt - region - to wear | obi - tai - obiru |
鋭銳锐 | sharp - - | ei - surudoi - |
黒黑黑 | black - - | koku - kuro - kuroi |
値值值 | value - price - to value | atai - chi - ne |
晩晚晚 | evening | ban |
楽樂乐 | music - comfort - ease | gaku - raku - tanoshii |
関關关 | concern - barrier - | kan - seki - |
髪髮发 | hair - - | kami - hatsu - |
戦戰战 | war - - | ikusa - sen - tatakau |
効效效 | effect - efficancy - | kiku - kou - |
塩鹽盐 | salt - - | en - shio - |
糸線线 | thread - - | ito - shi - |
栄榮荣 | glory - flourish - | ei - sakaeru - hae |
軽輕轻 | light - light (weight) - | karui - kei - karoyaka |
産產产 | childbearing - product - birth | ubu - san - umu |
圧壓压 | pressure - - | atsu - - |
発發发 | depart - start - happen | hatsu - abaku - tatsu |
変變变 | change - abnormal - strange | kaeru - hen - kawaru |
週周周 | week - - | shuu - - |
囲圍围 | enclose - surround - | i - kakomu - kakou |
図圖图 | map - drawing - plan | zu - to - hakaru |
売殼壳 | sale - sell - | bai - uri - uru |
姉姊姊 | sister - older sister - | shi - ane - |
帰歸归 | return - arrive - come home | ki - kaeru - |
悪惡恶 | bad - evil - | aku - warui - |
収收收 | obtain - to store - pay (taxes) | shuu - osamaru - |
遊游游 | play - idle - playful | asobu - yuu - |
絵繪绘 | picture - - | e - kai - |
観觀观 | view - - | kan - - |
覚觉觉 | remember - understand - | oboeru - kaku - |
遅遲迟 | slow - late - | okureru - chi - osoi |
験驗验 | test - examine - effect | ken - tamesu - |
気氣气 | spirit - energy - power | ki - ke - iki |
円圓圆元 | circle - yen - money | en - marui - |
読讀读 | read - - | doku - yomu - |
駅驛驿 | station - (train) station - | eki - - |
広廣广 | wide - broad - big | kou - hiroi - hiromeru |
転轉转 | revolve - turn - turn around | ten - - |
辺邊边 | vicinity - neighborhood - | atari - hen - be |
営營营 | manage - barracks - | itonamu - ei - |
https://www.thejapanesepage.com/node/kanji/dictionaryframe.htm
用excel和notepad++和python处理, 先把英语用google翻译成简体和繁体再用python比对, 然后手动编辑, 可能有漏的
かんじ.7z (372.1 KB)