汉语大词典从没经过转码的文本(自动转码谬种流传)

個人閱讀習慣問題。同時保留簡體版。各取所需

1 个赞

感谢,刚好在做转换表这块。其实异体字转换还好,习惯用法差异就是深坑,不知道 opencc 最初是怎么考虑的。像粤赣湘三省同一个油麦菜有三个叫法,根本没必要去转换,终究会慢慢趋同的。

绝非要冒犯阿弥陀佛大侠,恳请千万莫要见怪则个!

头一回在这里见到这么多的“正體版”,说实话,我非常激动!因为古文作品毫无疑问应尽可能地阅读“原汁原味”的传统汉字版本。不过下载回来仔细一看,发觉是机器转换出来的,未免有些失落。未经细致校对的“机器简转繁”版本,对于传统汉字阅读习惯的养成,毫无益处,甚至是有害的!——事关,一旦我们在谬误的大染缸内浸淫时间久了,很可能便会对“醉里挑燈看劍”、“可憐白發生”一类触目惊心、特别明显的错误,反应迟钝,视而不见。

这其实是一种慢性毒药,这对于真正的、无错误的“正體版”,是一种自我麻木、自我毁弃的背离过程。“伪繁体”看得愈多,离“真繁体”便愈行愈远。故而,我个人对于“机器简转繁”的所谓“正體版”,一直是持保留态度的。

3 个赞

的確是。那種已經不是字體的轉換了,是地方化的替換,更像是翻譯。
opencc是普通的使用(或是說是集體製作所以使用方式很雜),不適合用在字典上。

我也發現有趣的東西,呵呵,這些新加坡的簡體字沒有正體字:㮉、㺆、㺙、䣒、䦸、䞏、䠺、䥻、䥼、䈩、䜦、䜨

真正可靠的繁简文字转换,不能只转换单字,必须也转换词。要验证有没有转换词,用“头发”就可以验证。textpro会准确地把“头发”转换成“頭髮”。但是要转换词,词库就要够大,做起来困难重重。

这还只是一般语词,专名如人名、地名,不查专科工具书根本无法确定该不该转换。现在大家认为是简体字的字,在古代是独立的字。例如宋人洪适(Kuò)的“适”。textpro会避开“洪适”不转换。“洪适”是一个可以验证繁简文字转换功力的专名。

即使用的是能转换词的词库,还是会碰到特殊的语境,有歧义的情况,转换过后,还是得经过人工校对。

1 个赞

先生恐怕得把帖子的头五个字去掉。

简繁体转换,是一个相当复杂的“系统工程”,单靠词汇对应的转换,无法保证准确率。就拿先生说的“头发”举几个例子:

村西头发生了一桩命案。
一年到头发洪水。
黄毛丫头发新歌。
火车头发出轰鸣。
……

这些句子你拿Textpro或ConvertZ转换一下,便能明白:单靠自定义词汇表去作简繁体转换,治标不治本,错误肯定在所难免。事实上,必须经过非常复杂的语法、语义分析——也就是16#所说的NLP(自然语言处理)——才能达到较高的简繁体转换准确率。

而且,单单靠词组来作“简繁体转换特征词”,是无法穷举的。

仍是“发”的例子,我们随意抽取一批词典中的词目,让Textpro转换一下试试:
====简体====
发上指冠
发上冲冠
发丫
发乳
发卡
发卷
发型
发塔
发夹
发妻
发屋
发廊
发式
发彩
发征
发怒冲冠
发悬梁
发指
发指眦裂
发卷
发捻
发晶
发末
发杪
发根
发植
发毛
发漂
发环
发瘕
发症
发症虫
发癣
发短心长
发神
发秀
发积
发颖
发立
发笄
发帘
发紒
发网
发绺
发绣
发肤
发茎
发菜
发蜡
发冲冠
发竖
发踊冲冠
发辫
发逆
发间
发际
发髲
发髻
发鬄
发鬈
发鬓
发鱼
发鼓
发齿

====Textpro转换为繁体====
發上指冠
發上衝冠
發丫
髮乳
髮卡
髮捲
髮型
發塔
髮夾
髮妻
髮屋
髮廊
髮式
發彩
發征
發怒衝冠
發懸樑
髮指
髮指眥裂
髮捲
發捻
發晶
發末
發杪
髮根
發植
發毛
發漂
發環
發瘕
發癥
發癥蟲
髮癬
髮短心長
發神
發秀
發積
發穎
發立
發笄
發簾
發紒
髮網
發綹
發繡
髮膚
發莖
髮菜
髮蠟
發衝冠
發豎
發踴衝冠
髮辮
發逆
髮間
髮際
發髲
髮髻
發鬄
發鬈
髮鬢
發魚
發鼓
發齒

====原始的繁体词====
髮上指冠
髮上衝冠
髮丫
髮乳
髮卡
髮卷
髮型
髮塔
髮夾
髮妻
髮屋
髮廊
髮式
髮彩
髮徵
髮怒衝冠
髮懸樑
髮指
髮指眥裂
髮捲
髮捻
髮晶
髮末
髮杪
髮根
髮植
髮毛
髮漂
髮環
髮瘕
髮癥
髮癥蟲
髮癬
髮短心長
髮神
髮秀
髮積
髮穎
髮立
髮笄
髮簾
髮紒
髮網
髮綹
髮繡
髮膚
髮莖
髮菜
髮蠟
髮衝冠
髮豎
髮踊衝冠
髮辮
髮逆
髮間
髮際
髮髲
髮髻
髮鬄
髮鬈
髮鬢
髮魚
髮鼓
髮齒

即使我们将转换出错的词组悉数加入“自定义转换表”,那又如何!我们仍然随时可能会遇到26#那种“分词错误”的困境。倘若“山头发现好多敌人”会被误转为“山頭髮現好多敵人”,那么,“以词定字”就注定也是一种困兽犹斗般的徒劳操作。

2 个赞

汉字简繁转换没啥意义了。可能不用多久,港澳就强推简体字了,台湾也回归了。到那个时候,中国就 1‰ 的人学/用繁体字,汉字还可以进一步简化(新二简字)。

试想,俺, 三尺微命,一介菜鸟,单单对着一个“发(發/髮)”字,随随便便就能揪出十几、二十个转换错字来;那么,上百万字、上千万字的皇皇巨著、大型词典,你我纤手那么一点,简繁那么一转换,这得转出多少错字来!

哪怕闭着眼睛我也能够非常负责任地告诉你:

机器这么随便转出来的简繁错字,成千上万,远远超出了你的想象!

呵呵。

“發”字煩還是“历/歷/曆”?哈哈。好奇你那個表能做多大。
轉換過的《大辭海》中的“歷/曆”挺煩惱的。

我做個轉換表只不過來弄@@@LINK的跳轉,讓大陸朋友方便用古代漢語字典。這點還是有用的。
日常生活中無所謂,實際上簡繁的差距也只不過幾百字,其他僅是區區偏旁之分。但看古文還是得用正體字的。

大哥,“历(歷/曆)”算不上麻烦,比较麻烦的是“干/乾/幹”。我们再做一个小试验:

====原始的繁体词====
乾九
乾乾
乾乾淨
乾乾淨淨
乾乾翼翼
乾人
乾休
乾位
乾修
乾俸
乾倔
乾健
乾儀
乾元
乾光
乾兒
乾冬
乾冰
乾冷
乾則
乾剛
乾剝剝
乾劉
乾勁
乾化
乾匿
乾台
乾吉
乾命
乾和
乾咳
乾咽
乾哭
乾啞
乾啟
乾啼濕哭
乾喬
乾嗌
乾嗝
乾嘉
乾嘉學派
乾嘔
乾噎
乾噦
乾嚎
乾圖
乾坼
乾基
乾堆
乾大
乾女兒
乾妹子
乾始
乾娘
乾婚
乾媽
乾嬭婆
乾季
乾宇
乾安
乾安曲
乾封
乾居
乾屍
乾屎橛
乾岡
乾崗
乾川
乾巴
乾巴利脆
乾巴利落
乾巴巴
乾廕
乾式
乾弔
乾律
乾德
乾心
乾忙
乾忽剌
乾急
乾性油
乾恩蔭
乾愁
乾打哄
乾打壘
乾打雷,不下雨
乾折
乾掙
乾支剌
乾文
乾文車
乾斷
乾方
乾施
乾旱
乾明
乾昧
乾景
乾晷
乾暉
乾暴
乾暵
乾曜
乾村沙
乾杯
乾果
乾枯
乾條
乾棟
乾楨
乾榨
乾槁
乾構
乾樞
乾步
乾殭
乾沐浴
乾沒
乾洗
乾浴
乾海
乾涸
乾淨
乾淨利索
乾淨利落
乾淨土
乾淨地
乾淺
乾清宮
乾渡錢
乾渣渣
乾渥
乾渴
乾溢
乾漠
乾澀
乾澇
乾災
乾烈
乾烘茶
乾焦
乾煩
乾熯
乾熱
乾燋
乾燥
乾燥劑
乾爹
乾爽
乾片
乾物
乾男
乾瘠
乾瘦
乾癆
乾癟
乾白
乾皋
乾盡
乾相思
乾着
乾着急
乾瞪眼
乾矢
乾矢橛
乾研墨
乾硬
乾禮
乾穹
乾竇
乾竭
乾端坤倪
乾竺
乾笑
乾符
乾符坤珍
乾筆
乾策
乾筴筴
乾篤
乾篾片
乾粉
乾精
乾糒
乾糙
乾糧
乾紅
乾紐
乾累
乾結
乾絡
乾統
乾絲
乾維
乾綱
乾縮
乾罷
乾羅
乾老子
乾耗
乾肉
乾股
乾肥
乾胏
乾脆
乾脆利索
乾脆利落
乾脩
乾脯
乾腊
乾臘
乾花
乾茨臘
乾草
乾荒
乾菜
乾萎
乾落
乾落得
乾蔭
乾薑
乾薪
乾號
乾蛋
乾血勞
乾血漿
乾血癆
乾行
乾衡
乾裂
乾覆
乾親
乾謝
乾谿
乾谿臺
乾豆
乾豆腐
乾象
乾象曆
乾象輦
乾貝
乾貨
乾貺
乾蹦蹦
乾車
乾軸
乾辣辣
乾造
乾逼
乾道
乾道紫
乾達達
乾都
乾酒
乾酢酒
乾酪
乾酵母
乾鈞
乾錄
乾鑒
乾闥
乾闥婆
乾阿妳
乾陀
乾陀囉
乾陀羅
乾陵
乾陽殿
乾隔澇漢子
乾隱
乾雨
乾雪
乾雷
乾電池
乾霍亂
乾靈
乾音
乾顙
乾顧
乾顫
乾風
乾食
乾飯
乾餘骨
乾餱
乾餾
乾首
乾馬
乾鮮
乾鱉
乾鳥
乾鵠
乾鵲
乾麵
乾點
乾龍

====Textpro繁转简====
乾九
干干
干干净
干干净净
干干翼翼
干人
干休
乾位
干修
干俸
干倔
乾健
乾仪
乾元
乾光
干儿
干冬
干冰
干冷
干则
乾刚
干剥剥
乾刘
干劲
乾化
干匿
干台
乾吉
乾命
乾和
干咳
干咽
干哭
干哑
乾启
干啼湿哭
干乔
干嗌
干嗝
乾嘉
乾嘉学派
干呕
干噎
干哕
干嚎
乾图
干坼
乾基
干堆
干大
干女儿
干妹子
乾始
干娘
干婚
干妈
干奶婆
干季
乾宇
乾安
乾安曲
干封
乾居
干尸
干屎橛
乾冈
乾岗
干川
干巴
干巴利脆
干巴利落
干巴巴
乾荫
干式
干吊
乾律
乾德
乾心
干忙
干忽剌
干急
干性油
干恩荫
干愁
干打哄
干打垒
干打雷,不下雨
干折
干挣
干支剌
乾文
乾文车
乾断
乾方
乾施
干旱
乾明
乾昧
乾景
乾晷
乾晖
干暴
干暵
乾曜
干村沙
干杯
干果
干枯
干条
乾栋
乾桢
干榨
干槁
乾构
乾枢
干步
干僵
干沐浴
干没
干洗
干浴
干海
干涸
干净
干净利索
干净利落
干净土
干净地
干浅
干清宫
干渡钱
干渣渣
乾渥
干渴
干溢
干漠
干涩
干涝
乾灾
干烈
干烘茶
干焦
干烦
干熯
干热
干燋
干燥
干燥剂
干爹
干爽
干片
干物
乾男
干瘠
干瘦
干痨
干瘪
干白
乾皋
干尽
干相思
干着
干着急
干瞪眼
乾矢
乾矢橛
干研墨
干硬
干礼
乾穹
干窦
干竭
乾端坤倪
乾竺
干笑
乾符
乾符坤珍
干笔
乾策
干筴筴
乾笃
干篾片
干粉
乾精
干糒
干糙
干粮
干红
乾纽
干累
干结
乾络
乾统
干丝
乾维
乾纲
干缩
干罢
干罗
干老子
干耗
干肉
干股
干肥
干胏
干脆
干脆利索
干脆利落
干修
干脯
干腊
干腊
干花
干茨腊
干草
干荒
干菜
干萎
干落
干落得
乾荫
干姜
干薪
干号
干蛋
干血劳
干血浆
干血痨
乾行
乾衡
干裂
乾覆
干亲
干谢
干溪
干溪台
干豆
干豆腐
乾象
乾象历
乾象辇
干贝
干货
乾贶
干蹦蹦
乾车
乾轴
干辣辣
乾造
干逼
乾道
乾道紫
干达达
干都
干酒
干酢酒
干酪
干酵母
乾钧
乾录
乾鉴
乾闼
乾闼婆
干阿你
乾陀
乾陀啰
乾陀罗
乾陵
干阳殿
干隔涝汉子
干隐
干雨
干雪
乾雷
干电池
干霍乱
乾灵
乾音
干颡
乾顾
干颤
乾风
干食
干饭
干余骨
干糇
干馏
乾首
乾马
干鲜
干鳖
干鸟
干鹄
干鹊
干面
干点
乾龙

====Textpro将刚才的“简体”再转回“繁体”====
乾九
幹幹
幹乾淨
乾乾淨淨
幹幹翼翼
幹人
干休
乾位
幹修
幹俸
幹倔
乾健
乾儀
乾元
乾光
乾兒
幹冬
乾冰
乾冷
幹則
乾剛
幹剝剝
乾劉
幹勁
乾化
幹匿
幹台
乾吉
乾命
乾和
乾咳
乾嚥
乾哭
乾啞
乾啟
幹啼濕哭
幹喬
幹嗌
幹嗝
乾嘉
乾嘉學派
乾嘔
幹噎
乾噦
乾嚎
乾圖
乾坼
乾基
幹堆
幹大
乾女兒
乾妹子
乾始
乾娘
幹婚
乾媽
幹奶婆
乾季
乾宇
乾安
乾安曲
幹封
乾居
乾屍
乾屎橛
乾岡
乾崗
幹川
乾巴
乾巴利脆
乾巴利落
乾巴巴
乾蔭
幹式
幹吊
乾律
乾德
乾心
幹忙
幹忽剌
乾急
乾性油
幹恩蔭
幹愁
幹打哄
乾打壘
乾打雷,不下雨
幹折
幹掙
干支剌
乾文
乾文車
乾斷
乾方
乾施
乾旱
乾明
乾昧
乾景
乾晷
乾暉
幹暴
幹暵
乾曜
幹村沙
乾杯
乾果
乾枯
幹條
乾棟
乾楨
幹榨
幹槁
乾構
乾樞
幹步
幹僵
幹沐浴
幹沒
乾洗
幹浴
幹海
乾涸
乾淨
乾淨利索
乾淨利落
乾淨土
乾淨地
幹淺
乾清宮
幹渡錢
幹渣渣
乾渥
乾渴
幹溢
幹漠
乾澀
幹澇
乾災
幹烈
幹烘茶
乾焦
幹煩
幹熯
乾熱
幹燋
乾燥
乾燥劑
乾爹
乾爽
幹片
幹物
乾男
幹瘠
乾瘦
幹癆
乾癟
幹白
乾皋
幹盡
幹相思
幹著
乾著急
乾瞪眼
乾矢
乾矢橛
幹研墨
乾硬
乾禮
乾穹
幹竇
幹竭
乾端坤倪
乾竺
乾笑
乾符
乾符坤珍
幹筆
乾策
幹筴筴
乾篤
幹篾片
乾粉
乾精
幹糒
幹糙
乾糧
幹紅
乾紐
幹累
乾結
乾絡
乾統
乾絲
乾維
乾綱
幹縮
幹罷
幹羅
幹老子
乾耗
乾肉
乾股
乾肥
幹胏
乾脆
乾脆利索
乾脆利落
幹修
乾脯
幹臘
幹臘
幹花
幹茨臘
乾草
幹荒
乾菜
幹萎
幹落
幹落得
乾蔭
乾薑
乾薪
乾號
幹蛋
乾血勞
乾血漿
乾血癆
乾行
乾衡
乾裂
乾覆
乾親
幹謝
幹溪
幹溪台
幹豆
幹豆腐
乾象
乾象歷
乾象輦
乾貝
乾貨
乾貺
幹蹦蹦
乾車
乾軸
幹辣辣
乾造
幹逼
乾道
乾道紫
幹達達
幹都
幹酒
幹酢酒
乾酪
幹酵母
乾鈞
乾錄
乾鑒
乾闥
乾闥婆
幹阿你
乾陀
乾陀囉
乾陀羅
乾陵
乾陽殿
幹隔澇漢子
幹隱
幹雨
幹雪
乾雷
乾電池
幹霍亂
乾靈
乾音
幹顙
乾顧
幹顫
乾風
幹食
乾飯
幹餘骨
幹糇
乾餾
乾首
乾馬
幹鮮
幹鱉
幹鳥
幹鵠
幹鵲
乾麵
幹點
乾龍

=============

我们震惊地发现:用电脑转换软件,将一段正确的繁体文本转换为简体文本,然后再将这个简体文本,用同样的软件重新转换为繁体——结果我们将收获一大堆错误!

无论是“繁转简”,或是“简转繁”,都是“有损转换”:一旦发生了转换,错误便永久地沉淀下来了,再也回转不去正确的源文本了!

好吧,现在问题来了:

为什么我们要对大型电子词典进行无谓的简繁转换?为什么我们要人为地、主动地制造这些错误?

——聪明的,我问您。

汉语大词典从没经过转码的文本,看下面这个帖子:

汉语大词典光盘版2.0

1 个赞

convertz802程式设定→词汇修正→程式内建的繁体中文修正表→取消勾选启动,这样简繁字一对一转换,试试怎样。