myfav
24
僅就#22的測試樣本,大略列舉一下繁化姬「簡轉繁」的轉換錯誤(注:瀏覽「Chs2Cht_Different_Report_Unihan_Fanhuaji.txt」,手動挑錯。)。
「包乾」誤作「包幹」
「長於唸白」誤作「長於念白」
「朝露易乾」誤作「朝露易幹」
「吃準」誤作「吃准」
「翠色欲流」誤作「翠色慾流」
「噸海里」誤作「噸海裡」
「風起雲佈」誤作「風起雲布」
……
……
有一些字,講真,差別很小很微妙,我不太有把握,例如:「杆與桿」、「槓與杠」、「鍊與煉」、……暫時我只能存疑,沒敢去挑錯。
感謝回報,有空我會看一下 Chs2Cht_Different_Report.rar 。
這兩個個人認為在台灣都有人用,並且為通同字,後期再自己轉換也問題不大。
這兩個就不一樣了,通常應該是錯別字。
myfav
26
我做的類似「科學實驗」,從2300個樣本詞語中,以電腦機械方式「子集化」,將有可能存在問題的詞語,縮減至300多個,然後逐一人工核查這些「可疑詞」。當然,這一切基於一個不十分嚴謹的斷言:
假設,這三种不同的簡繁體轉換程式,不會同時轉錯任意一個問題詞。
然而,三种程式,確實是有可能同時誤將一個詞簡繁轉換出錯的。比方說,簡體詞「阿奶」,轉換為繁體,應當是「阿嬭」(稱阿母、母親。)——很遺憾,三种程式同時出錯了!於是,這個問題詞就成了漏網之魚,至少,以我的機械方法,無法將其成功捉出。
無論如何,我打算先將這300多個「可疑詞」子集中,可能存在的錯誤,逐個逐個地捉出來,如此可統計出一個大致的準確率,或者說,錯誤率——這也是極好的。
說到台灣通同字,恰好遇到兩組字:「岩巖」與「台臺」。
據網友整理的資料,「岩」只用於「岩石、沉積岩、岩漿」等與地質相關的意義,其餘則用「巖」,如「巖壁、中空成巖、千巖萬壑」等等。查《重編國語辭典修訂本》,亦是同樣結果。不過,我看繁化姬的轉換結果,似乎許多地方用「岩」?
又,與「平地」有關用「臺」,「台」爲罕用字。查《重編國語辭典修訂本》,亦是同樣結果。而繁化姬似乎全用「台」?
我猜測,這是民眾的習慣(習俗)用法嗎?
myfav
27
至於「簡體化」,繁化姬的轉換策略,可能存在失誤。
一般正常情況下,繁體轉簡體,是指「大五碼」轉「GBK/GB-2312」。當然,在Unicode編碼的世界中,已無所謂「大五碼」或「GBK」,而全都是UCS-2、UCS-4或者UTF-8。在此借用「大五碼」或「GBK」的說法,意指:一個中文字,是否出現在了「大五碼」字集或「GBK」字集的範圍以內。
繁化姬為追求極致的、最嚴格意義上的「繁轉簡」,寧願將轉換出來的簡體字結果落在「GBK」字集之外,這與簡體字的日常使用習慣不相符。「GBK」字集以外的字,皆為Unicode BMP平面以外的「極罕用字」,在正常情況下,使用簡體字的普通人是用不到的,用普通的、常用的簡體字輸入法也難以輸入。故而,繁化姬轉換出來的簡體字,僅僅是理論上的絕對正確,然而實際上卻可能是失敗的轉換結果。
aimdict
28
1 Like
那是因為您對繁體化的定義與大家不同。奶的繁體字明顯並不是嬭,嬭的簡體字也不是奶。
我並沒有說繁化姬正確率為 100% ,因此您所謂的「全用 X」可能是以下的綜合結果
- 我就是認為要轉為 X
- 難以處理因此不介入,而原文使用 X
- 實際上為通同字,並且民眾有明顯偏好
- 因為其他原因造成的錯誤轉換
no example. no fix.
您的回覆在程式作者的眼中如下:「你的程式有 bug ,請修正。」
myfav
31
非常抱歉!發帖後我也想到了這一點,惟,其後被另一帖子中的《教育部國語辭典簡編本》吸引住了,昨天一直都在嘗試下載那個字典皆告失敗,未及編輯本帖,添加例子,懇請見諒!
我嘗試用繁化姬進行「繁轉簡」,結果讓我頗有些詫異!一般情況下,GB-2312範圍內的簡體字,日常會比較常用,依字頻、詞頻的統計數據,分為一級漢字、二級漢字等等;GBK則非官方標準,大致可理解為GB-2312的擴展,凡GB-2312以外,且收錄於GBK者,大致可視為「三級漢字」罷。
常見的單機版「繁簡轉換軟體」(單機版不要求用家編寫任何程式代碼,更方便普通人使用,而Open CC之類在線版,雖然更準確、更專業,但普通人難以調用。),如ConvertZ、Textpro、Word……等等,在「繁轉簡」時,有一個不成文的默契或標準——轉換得到的簡體字結果,一般情況下,絕不超出GBK字集範圍以外。這一點,我反覆測試過了。而繁化姬「繁轉簡」則會轉換出許多GBK字集以外的「無限類推簡化字」,這些超出了GBK字集以外的「極罕用字」,其實是一些「死字」——普通人日常絕不會用得到的字。
舉幾個例子:
鰌 ==> 䲡
紬 ==> 䌷
鵁鶄 ==> 䴔䴖
鸊鵜 ==> 䴙鹈
鴷 ==> 䴕
表面上,這類「繁簡轉換」很完美,然而,實際上,繁化姬轉換出來的這些「無限類推簡化字」,在使用中,一不小心就可能遇上大麻煩!故而,一般的「繁簡轉換」工具,遇到這類字,基於安全的理由,會徑直保留繁體原字,而不作任何轉換。
skippy
32
詩經「長發」在轉換後,常常變成「長髮」。繁化姬也犯了這個錯誤,登樓古籍簡繁轉換系統則通過了考驗。登樓用國語辭典、漢語大詞典、辭源的詞條當校正資料庫,確實能避免不少錯誤,值得參考。
myfav
33
沒錯,這些字皆符合現行的國家標準GB18030,然而實際日常使用中,會遇到無數麻煩與限制。比方說,另存為TXT,一不小心,沒存為UTF-8,而誤選了ANSI,那麼下次開啟此文檔,將得到一堆的??;再比方說,電腦顯示或者列印,常用的漂亮字體,是無法支持這些「極罕用字」的,顯示或列印時,將得到一堆的空白缺字或○。當我們進行「簡轉繁」時,若轉換出一堆「大五碼」字集以外的罕用字,在台灣的電腦中,也會遇上類似尷尬情形——轉換很完美,但是不實用!因為電腦中這些字看不到,也列印不出,一不小心,還將得到一堆的??
那樣一來,簡繁體之間相互「完美」轉換,也便失去了實際意義。
很完美,卻無用——虞兮虞兮奈若何?
繁化姬明確不考慮古文轉換的問題,見 簡介 - 繁化姬 說明文件
不過若是(您願意提供)比較出名的句子,會做為特例轉換。
這是我這邊可以改進的,因為繁化姬最初的目的是字幕轉換,而這些類推簡化罕用字對絕大部分的字體是缺字的。感謝回報。順便附上已有的不轉換罕用字。
㑶㠣㩵䃮䋹䎱䓣䡵䥕䮄䲘傌僤勣埨塸塿墠墶壪娙嵽嵾嶨巘巠幓廎廞彄慺憍憖懤懧擥晛暐梜槮櫍浿湋溮漍潕潚澫濚灩熰燀燖璊璕璗璡璵璸瓅瓛痲磾礐穇篢紃紞絪綄綎綖綡綧綪縯繶纆纕羨膞蔄薵藭蘀蘋虉蝀訏詝詪詷諓諟諡諲諴譓譞譼軝輋輶鄩鄳醃醲釴釿鉊鉝鉥鉧鉮鉷銈鋐鋗鋹錀錞錤鍭鎓鏏鏻鐇鐩鐽鑪钁闉闑隑隮隯靆靉靦頍頔頠頫頵顗馼駉駓駪駼騄騊騑騞騱騵驎鮀鮆鮈鮠鮡鯻鰊鰶鱀鱚鵏鵟鶠鷟鷭鸑麳齘齮齯齼鿓𡑍𢣏𣞁𣯶𤷽𥗽𥵜𧍕𨧀𨨏𨭆𨭎𩗡𩣵𩽇𪈼
使用該系統轉換對 长发
二字進行繁體轉換得到 長發
,因其定位為「古籍」簡繁轉換系統,那麼我認為可以接受。如果是「通用」繁簡轉換系統,那麼我認為這是為了極少數情況而使大部分情況都是錯誤轉換的「不划算的交易」。