异体字害死人!看帖子《“這蚤晚”与“這蚤晩”相同吗?》,联想到我查询《漢語大詞典》词头时的奇葩事……

网上有在线版的《漢語大詞典》词头查询,网址不记得了,不过当时遇到的尴尬事,则记忆犹新:
我查「為」字組的任何詞,全部查不出來:
無為、為所欲為、為什麼……
忍無可忍之下,看了一眼Javascript源代碼,險些氣破俺胸脯!
原來編程者在OCR或錄入時,將所有的「為」字全打成了「爲」!同樣,查「眾」也是查不到的,全打成「衆」了;「查」字也有陷阱,有些被打成了「査」;還有就是這個「晚」與「晩」、「歲」與「歳」、「產」與「産」……試問,誰有那麼好的眼神,能夠分辨出這些編碼截然不同的「異體字」!
其實,準確說來,這些並不完全是「異體字」,很多就是外國人搞Unicode在收錄漢字時,將筆畫稍有不同的字,當作不同漢字胡亂分配到不同的碼位上了!假如楷體和宋體、新字形和舊字形,皆被當作不同漢字,那純粹是瞎胡鬧!瞎搞!

1 Like

《漢語大詞典》使用繁体词头。我们知道,电脑可以调用API进行快速的“繁简转换”,论坛上众多标题为“正体版/简体版/繁简通检版”的词典就是这么来的。

就“简繁转换”的正确率而言,大抵30多万个词头可能出现1~2万甚至更多的转换错误,这些错误一般集中在“乾”、“著”……等等“重灾区”,以及一些模棱两可、似是而非的异体字上,你比方说:“棱”和“稜”,讲真,用惯了简体字,我们是无法辨识这两个字在繁体语境的常用度的;又比如说,“污”和“汙”,恐怕我们做梦也猜不到,“汙”才是中国台湾省常用的正体字!

可问题是,无论是“简繁转换”或是“繁简转换”,简体「为」字对应的是繁体「為」字,简体「众」字对应的是繁体「眾」字,简繁体「晚」字相同,……这些原本是一 一对应、毫无歧义的简繁转换关系,现在一旦将词头打成了笔画略有差异的“罕用异体字”:「爲」、「衆」、「査」、「晩」、「歳」、「産」……那么,这些词头就成了茫茫词汇沙漠中的孤独沙粒,可能永远也无法被用户检索出来!

1 Like

抱歉,上文这个正确率统计是笔误——这是“繁简转换”的正确率;至于“简繁转换”,正确率远没有这么高!30多万个词头,至少有3~4万甚至更多的转换错误!

若您真有志于钻研“简繁体字相互转换”而又不敢不愿不屑弄出一大堆转换错字出来误人子弟,我可以提供一个理论上可行可靠可信赖的训练思路:

你上台港澳的新闻类或文学类站点,搜集一些准确无错字的繁体文章,然后:
1、将繁体文章进行“繁简转换”,这样你得到一批已混杂了转换错字的“简体版”文章;
2、再将“简体版”文章,进行“简繁转换”,这样你又得到一批新增了转换错字的“繁体版”文章;
3、拿你得到的所谓的“繁体版”(抱歉,请恕我直言,这也就是大师常说的所谓“正体版”),与最初准确无错误字的繁体文章,进行自动的程序比对,python也好、Javascript也好、VBA也好,……都不难做到。
如此,你就能得到一份相对准确的第一手的“简繁相互转换”正确率的统计结果了。
好吧,祝您好运!
至于你问我,这方法如此理想,为什么你自己不撸起袖子这么干一把?呵呵呵呵,因为一看结果,头大!错字实在太多,已远远超出了我的水平能力范围,一个人没法干,只好暂时搁置。

1 Like

沒那麽複雜:

新字体 - 维基百科,自由的百科全书 (10_24_2021 12_55_29 PM).zip (206.0 KB)
从上面网页复制的新舊字體對照表: 2.txt (4.2 KB) 然后把这个里面的繁体简体找出来, 其他的都是日语, 也就402行
过滤了一部分简体和繁体不同的, 还剩余273行 2.1.txt (3.1 KB)
再去除几个字 晃 槙 渚 琢 祐 萌 頴 桝 剩余264 4.txt (3.1 KB)

没那么简单。我随便举几个词头检索时遇到的异体字,你在这“402行”里找找:

帀、飮、絶、綫、嬀、綳、査、鉢、啓……

需特别特别小心的是,类似“币、饮、绝、线、查、启”, 这些字在日常简繁相互转换中,其实是常用字(注:没查字典,我暂不确定“帀”是否等同于“币”)。但是倘若不幸遇到了上述异体字,则在简繁体相互转换过程中,很可能是无法正确转换的:要么无法正确转换,要么经①繁转简,②简转繁,很可能字就会变样了。

在简繁转换过程中字变样了,这也就意味着,汉字编码变了。那么,在试图编制“简繁通检词头”时,一旦你不小心输入了这些“罕用异体字”,就必须穷举出它们所对应的“常用繁体字”,否则这些词头便会变成只占用空间而无法被用户检索得到的“死词”——因一般人用日常输入法不会输入这些异体字——而变得毫无意义。

2 Likes

基于上述简繁相互转换过程中,可能遇到的种种复杂因素,在此我审慎地建议:

“伪繁体”就是“伪繁体”,不要用所谓“正體字”来命名你用电脑自动简繁转换得来的错字万出的“伪繁体”。请径直命名为“伪繁体”就好啦。

——没人会笑话你的。

爲 才是正字,也是大陆的繁体字标准,為 才是俗字

汉大我现在只用那个2.0光盘版,原先的繁体转换版都删了。好在如今的mdx制作者有了一个共识:先做出一份尽可能接近原版的版本,再凭喜好自行修改。这样避免了很多麻烦。

咱隔雾观花,去争辩孰是“正字”,孰是“俗字”,这其实毫无意义。

打个比方,两个法国人,端坐在塞纳河畔,喝着红茶,争论一个阿拉伯语中的词语,孰是正字,孰是俗字,且言之凿凿地证明“那一帮阿拉伯人全都用错字了!XXX才是正字!他们用的是俗字!!我有二十五部文献资料绝对可以证明:他们错了!我绝对没错!!”

可问题是:阿拉伯人每天都在读在写在用阿拉伯文,你说人家用错字了,试问:

你用阿拉伯文吗?你凭什么说那些每天都在用阿拉伯文的人们,用的就是错字、俗字,而你一个从不用阿拉伯文的家伙,你认为、你感觉、你证明的字,则是正字、是对的字?——梁静茹给你的勇气么?

我问你。

其实这问题的关键,并非“理论上孰是正字孰是俗字”,而是:哪一个是日常用字?哪一个不是日常普通人用到的字?说,我打开一部电子辞典,劈里啪啦输入一个我和周围所有人每天都在用的词,结果查不到!究其原因,你义正辞严告诫我“你们用错字啦!你们用的是俗字!你赶紧悔改吧!”

不是,我说,我一个普通人,弄个辞典回来,无非打算用辞典,而不是要研究辞典。你一部电子辞典不好好干活现在还诸多辩解——梁静茹给你的勇气么?

再打个比方,不太恰当的比方:

就好比老婆正炒菜,吩咐我赶紧上超市买袋盐回来,急用!我心急火燎冲进小区门口小超市,指着货架上的加碘盐吼道“给我拿袋盐,好多钱?”结果店员义正辞严地告诫我:“理论上,科学上,严格意义而言,这一袋晶体主要成分是氯化钠,当然还含有杂质碘酸钾(KIO3)及极少量Ca2+、Mg2+等。从化学角度说氯化钠是盐,但这“盐”与我们平时所说的食盐并不是一回事。这一袋东西,相对比较正规的叫法是食盐;而盐只是通俗叫法,这并不规范!我觉得你在下定义时,应该更严谨一些,这样才能脱俗。”

——梁静茹给你的勇气么?

呵呵呵呵。

港台出的字典,自然用港台的规范字,大陆出的字典,自然用大陆的规范字,现状就是大陆规范“为”的繁体字就是“爲”,这是国务院规定的 国务院关于公布《通用规范汉字表》的通知
各地有不同标准,导致查字典比较麻烦,这是实情,可以想想办法,比如做更好的繁简通搜、异体字词头跳转之类,单纯长篇大论发泄情绪并没有什么益处

2 Likes

您没明白我的意思。

法国人当然可以隆重出台《21世纪阿拉伯文字规范表》,甚至可以推出Ver 2.0、3.0、4.0……,只要法国人有兴致有闲情有能耐,而且“老子乐意”!

只是法国人出台的阿拉伯文字规范,法国人自己又从来不用,阿拉伯人也从来不用。嗯,……我不能说它一纸空文吧,毕竟好歹是个规范。可是规范归规范,这日常打字,我依然必须得照着这地球上仍在每天使用着传统汉字的人们日常通用的文字来打吧。

这压根儿就不需要梁静茹给我勇气!

大伙儿撸起袖子热火朝天地DIY各种各类丰富多样的词典,无非就是方便自己、方便同好们使用哇!又不是要正式出版(必须达到万分之一以下差错率),那么,照本宣科地要求逐字逐词都严格符合“规范”作什么呢?!好用、方便、实用才是硬道理!倘若查一个常用词,查不到!查二个常用词,查不到!那便与大伙儿DIY词典的初衷背道而驰了。

实践是检验真理的唯一标准。教条的、理论的、死硬照搬“规范”的“好词典”,并不是好词典。好用的词典,方便查询的词典,那才是好词典!

这一点,地球人都知道!

今天核对了一遍扫描版《漢語大詞典》12卷本,嘿嘿,发觉错怪了网页查询版的程序员。大詞典原书如此,程序员照原样输入,不应被苛责。

可如此一来,无数常用词便无法被正确检索,比如说,我想查“生产”,用普通的常用输入法——无论是用简体输入法先打“生产”,再自动简繁转换为“生產”,抑或是直接用繁体输入法打”生產“——你是检索不到《漢語大詞典》“生産”一词的。你不信?将这两个词”生產“和“生産”,复制到word放大至72的字号,仔细对比一下!类似地,所有“产”字的组词,皆无法被正确检索。

究其原因,因为所有正常人能够输入的”產“字不规范,而只有平时无法正常输入的“産”字才规范!

试问,这样的检索,还有啥意义?——正常人根本检索不到极其常用的正常字词。

找到了原因,便不难解决。

我会编写简单的程序代码:
Select * from 漢語大詞典詞頭 where inlist(詞頭, 异体字) into table 漢語大詞典增补詞頭

然后再将“增补詞頭”劈里啪啦批量替换为正常人所用的正常词头,最后两相合并一下,即可。
呵呵呵呵。

这是词典软件的问题,词典作者不应该考虑这些杂事。

你先修一修文字學的課吧,或者至少查查康熙字典、瞭解一下正字和俗字的定義。
不要和你不一樣就是別人的錯,也可能只是你不懂而已。

您的意思,话说,我一个普通人、正常人,闲来没事,想查一查词典,就随便查查:“生产”、“为什么”、“大众”……在我查之前,首先要先修一修文字學的課,或者至少查查康熙字典,否则的话,若查不到这些常用词,便是我的错,而绝不能是编词典者的错,也绝不能是编程序者的错——总之,就是我一个普通人正常人的错!“命苦不能怨政府!”总之,查字典之前,读者必先德业双修,必先搞好读者的业务水平与自我修养,然后才有资格去查字典!!……先生,您是这个意思吗?

我睁大了眼睛,怯怯地、小心翼翼地、胆战心惊地覤着凛然正气的先生,大气都不敢出。

现阶段的不完美的解决方案只有开启词典的简繁通搜功能,实测goldendict输入“生产”“生產”“生産”均可以正常显示,但在线版就没办法了。汉字的不同标准有其历史原因,大陆、香港、台湾、日本、韩国甚至越南的汉字标准都不尽相同,典型例子如繁体“龜”字,历史上恐怕有百十余俗体,今日各地规范也不尽相同。某种程度上,好比斯拉夫语族有的语言用拉丁字母,有的语言用西里尔字母。待到有人再一次鞭笞天下,威振四海之时,楼主的心结恐怕才能解开。

2 Likes