蕓蕓眾生——可怕的简繁转换错误

刚刚发现了一个可怕的简繁转换错误:有词典网站(不止一个)把“芸芸众生”转换繁体变成了“蕓蕓眾生”。

下列网站的这条解释也把“稠人廣眾”搞成了“綢人廣眾”,不过这看起来好像是网编的错误。

textpro没这样笨,会把“芸芸众生”转换成“芸芸眾生”。不知这个网站用的是哪个邪门的转换软件。

谷歌一下“蕓蕓眾生”,竟然有234,000 项结果!

又发现:天啊!知网的繁体字版也变成“蕓蕓眾生”了!!

有书友发现了同类的简繁转换错误吗?

《汉语网》
蕓蕓眾生
簡拼: yyzs
拼音: yún yún zhòng shēng
同義詞: 綢人廣眾、凡夫俗子
英語翻譯: all living creatures
用法: 含貶義。多用來指生活環境中的絕大多數人。一般作主語、定語、賓語。
解釋: 佛家語;指世間眾多的生靈。后多指世上大群無知識的人。蕓蕓:眾多的樣子。
出處: 《老子》第十六章:“夫物蕓蕓;各復歸其根。”
例子: ~都是希望能夠在和平的環境中生活。

按:“蕓蕓眾生”当作“芸芸眾生”,“綢人廣眾”当作“稠人廣眾”。

《国语词典》
字詞 【芸芸眾生】
注音 ㄩㄣˊ ㄩㄣˊ ㄓㄨㄥˋ ㄕㄥ
漢語拼音 yún yún zhòng shēng
釋義 泛指世間一切生靈或特指塵世凡人。清.秋瑾〈革命軍制論〉:「芸芸眾生,孰不愛生?愛生之極,進而愛群。」

Textpro也有很多错误,千万不要迷信它。你粘贴这两个词进去转换试试:
乾竺 竺乾
转换两次:先繁转简,再简转繁。
无论是繁转简或是简转繁,都很难穷举的。

个人认为,对于词典这类严肃资料应该杜绝随意用机器转换简繁,除非同时提供原版和转换版,在转换版下注明内容仅供参考(词典这类书籍,就算是机器搭配人工也难免有失误频出,汉大3.0就是一大反例)。等到人工智能转换无可挑剔的时候,恐怕对岸都在用简体了 :goutou:

在想,根据简化字表和异体字表,应该能编制一个网罗所有可能错误的简繁字转换表,基于这样的表来对机械的转换进行一次人工校正,把可能的错误字高亮,校正起来应该很快。

第一次,用Textpro繁转简,它友情赠送第一个错误:“竺干”
第二次,用Textpro简转繁,它加倍赠送第二个错误:“竺幹”

话说,无论是“乾竺”或是“竺乾”,都应死死地咬紧牙关维持原样,而不该被Textpro乱转乱换,生造出两个莫名其妙的转换错字(或者依楼主帖子标题的说法“可怕的错误”!)!

簡正轉換別字表.rar (115.7 KB)
繁簡字常見錯誤(補註版)
容易搞错的繁简体字

2 个赞

中文首要的难题是分词。
一个汉字是应该与前一字还是后一字组合,意思可能大不一样,繁简转换随之不同。古汉语词句简练,这一点尤为突出。

制定完善一个对照词表 list 或许可以解决很多常见错误,但总是会有漏网之鱼。

此外就是两岸三地的用词习惯差异等等,尤其是软体–软件、网芳–网络邻居等科技词汇。

其实没有必要那么纠结,用程序转换势必会有错误,因为哪个软件哪本辞书也不能穷举所有的词语。
只要不转换原数据,只是加上转换用于词头跳转,便于检索就是了。即使转换错了,检索时我们也用不到,没多大影响。

2 个赞

校正可以使用两种不同的转换程式,转换后再比对不同的地方。

這樣的處理方式應該是目前最好的方案。

没用的,仍会有许多遗漏与错误!其实我尝试过同时比对三、四种转换程式,包括我用自己三脚猫工夫写简单代码调用Windows API直接转换,再如何比对,都不尽如人意。而且,不同的转换程式,得出的结果有时相互矛盾,反倒徒增更多的错误。

我们用一小批词典中的繁体词试试,先繁体转简体,再简体转(伪)繁体,最后对比一下你得到的(伪)繁体与源词之间的差异:

源词:上著 不著 以微知著 位著 住著 佛頭著糞 俵著 倒著 倚著 停著 傅著 傳著 儘著 允著 先著 克著 刪著 乾九 乾乾 乾乾淨 乾乾淨淨 乾乾翼翼 乾人 乾休 乾位 乾修 乾俸 乾倔 乾健 乾儀 乾元 乾光 乾兒 乾冬 乾冰 乾冷 乾則 乾剛

繁转简:上着 不着 以微知著 位着 住着 佛头着粪 俵着 倒着 倚着 停着 傅着 传着 尽着 允着 先着 克着 删着 乾九 干干 干干净 干干净净 干干翼翼 干人 干休 乾位 干修 干俸 干倔 乾健 乾仪 乾元 乾光 干儿 干冬 干冰 干冷 干则 乾刚

再简转繁:上著 不著 以微知著 位著 住著 佛頭著糞 俵著 倒著 倚著 停著 傅著 傳著 盡著 允著 先著 克著 刪著 乾九 幹幹 幹乾淨 乾乾淨淨 幹幹翼翼 幹人 干休 乾位 幹修 幹俸 幹倔 乾健 乾儀 乾元 乾光 乾兒 幹冬 乾冰 乾冷 幹則 乾剛

之所以要“繁转简”、“简转繁”地反复折腾,事关经常有人喜欢同时推出所谓简体版+繁体版,而从不理会其中的大量错误。

我们发现:“著”字经来回倒腾后又恢复了原状,原因是一切简体的“着”或“著”转成繁体时,都会被转成“著”,这相当幸运!不过,繁转简时,产生了许多(伪)简体的“着”,看到类似“经典名着”这样的词,让人如鲠在喉,很是难受的!至于“乾”字,转来转去就相当混乱了,自己可以对比一下。

这是最典型的转换错误。其他还有上百个“一简对多繁”的单字,我就不逐一列举啦,浪费眼神。呵呵呵呵。

《简化字总表 》#3094
image

據規範表,“願”的簡化不是“𫖸”,而是“愿”。ok.

那麼,若把“𢥧”、“𩕮”簡化成“愿”,算是錯的嗎?哈哈,我有點疑惑。相關的字條沒提這兩個字。

嗨,说起繁简转换错误,那可就太多了,根本说不完
机器自动转换不可能没有错的,即使人工检查也不可能避免错误,比如这个“乾竺 竺乾”,我才疏学浅,查了字典才知道,我想谁也不敢保证自己所有词都认识吧
感觉 sxingbai 说的方法不错,不要转换原数据,只加转换用于词头跳转,便于检索

1 个赞

有没有人用过这套系统?

漢字簡繁文體智能轉換系統

http://jf.xmu.edu.cn/

2 个赞

用了 myfav 的测试文繁转简,再自己简转繁试了一下,
还是有“尽着”、“ 干人”、“ 干休”三处错误 。
不过和其它程式比算是好的。

厦门大学智能科学与技术系開發的這個轉換系統很龐大,解壓前就有952MB,內建詞庫十分可觀,希望效果也能領先群雄。

1 个赞

还在下载,不知可否再自建辞库修正。
这么大的辞库,不知处理辞典这种大文本速度如何?

1 个赞

谢谢介绍。本来想下载单机版试用的,看说明说需要有8G内存才能用,就放弃了。电脑没那么多内存啊!

记下网址,以后有需要也许试一下网上转换。

同樣卡在RAM不夠。我的系統雖有8GB,但256mb給顯卡挪去了,因此也沒法用。試了一下網上轉換,結果不大滿意,連很平常的乾、幹混淆都沒處理好,希望單機版不至於一樣。

例子:

“牛鬼在大學都乾了些什麼?”

“幹反革命!干修正主義!”