词典软件繁简搜索【乾干著着】

繁简转换有多个易混淆的字。

如乾干、著着、覆复,词典软件是否需要把它们的相关结果全部搜索出来?

全部搜索的结果如下:

输入 [乾] → 显示 [乾、乾坤、干、干活]
输入 [着] → 显示 [着、着相、著、著名]
输入 [复] → 显示 [复、复杂、覆、覆盖]

  • 不需要
  • 需要

0 投票人

目前发现,中华书局、文渊阁四库全书,是支持全部搜索出来的。
不知道普通的词典软件是否也需要这么做。
方便的话,回复下需要或者不需要的原因。

3 Likes

DictTango 有这样的显示:

原因嘛……搜索更全面?

2 Likes

繁简转换,有一对多情况的单字有55组:

乾 乾|干
噹 当|𪠽
復 复|復
徵 征|徵
戰 战|𢧐
瀋 沈|渖
灠 漤|𰜐
灡 㳕|𬉠
瞭 了|瞭
線 线|缐
緻 致|𰬫
繡 绣|𰬩
著 着|著
藉 借|藉
蘋 苹|𬞟
蘭 兰|𬞕
裡 裡|里
覆 复|覆
註 注|𬣣
詠 咏|𰵞
誌 志|𰵧
謲 𬢳|𬤄
譸 诪|𬢪
譾 谫|𫍿
買 买|𧹒
賬 账|𧹔
贓 赃|𰷭
蹤 踪|𧿛
輓 挽|𬨈
鉤 钩|𰽭
錶 表|𰾍
鍾 钟|锺
鏇 旋|镟
鐫 镌|𰾹
鑽 钻|𰿆
開 开|𫔭
閤 合|𬮤
闆 板|𬮳
闢 辟|𰿾
靦 䩄|腼
韆 千|𱁶
韻 韵|𱂐
願 愿|𫖸
颱 台|𱃗
餘 余|馀
餚 肴|𬳁
餱 糇|𫗯
鱄 𫚋|𱈐
鱨 鲿|𱈘
鱷 鳄|𱈚
鶂 𬷼|𱊈
鷿 䴙|𬸯
鸒 𱉰|𱊭
麯 曲|𱋐
齣 出|𱌮

易混淆的单字只有8组:

乾 乾|干
復 复|復
徵 征|徵
瞭 了|瞭
著 着|著
藉 借|藉
裡 裡|里
覆 复|覆

2 Likes

大神,麻烦看看我用 DictTango 为什么碰到明明有这个词却搜不到的问题,谢谢!

我补一个

沈|沉

1 Like

如果要追求全面,还应该加入异体字,比如為爲,戶戸,其实简体本质上也是异体

1 Like

异体字也考虑进去了。现在就是上面那8组易混淆的单字,要不要做通搜。

中华书局有支持:

输入 [沉从文] → 显示 [沈从文]

不知道你说的异体是不是我说的,我说的包含的比较广,包括日韩写法,以及字形有微小差异但unicode编码不同的那些字,甚至误收的,如果这些都整理好了,那就非常棒了

中日韩共用汉字包括进去了,异体字的概念很复杂,这里说的异体字,是指《通用规范汉字表》里的异体字:

𤰜畂𤱈畆畮 → 亩
劒劍剣 → 剑

但是《通用规范汉字表》没有收录:

沈 → 沉

虽然《异体字字典》有收录,可是里面有非常多的互为正异体的情况,数据没法用,需要人工处理:

踊 → 踴
踴 → 踊

1 Like

簡體|繁體,我當作異體字關係來處理。從這個角度來看,一對多的關係可以弄出五、六百多簡化字,看你用什麼條件來過濾或分類呵呵。我收拾的有 1,715 行。要找怪案子,搜 “unexpected”、“⫳”、“≠”、“⩮”。(TYGF=通用規範字表。大多異體字來自此表;我自己另外加的,加得挺謹慎。如果拼命加異體,當然可以膨脹到幾點。)
View in Emeditor in Tab-separated mode.
[1715 Simp-Trad.txt|attachment]

2 Likes

是因为DictTango有如下的映射

当|噹
当|當
发|髮
发|發
复|複
复|復
干|幹
干|乾

DictTango在查词的时候,如果有开简繁通查,会根据映射尽可能匹配结果,如果用户有自己的异体字映射,也可以建立自己的映射库并加到DictTango中。

3 Likes

我说的“原因”是回应楼主说的“回复下需要或者不需要的原因” :joy:

原来如此 :joy:

不只8組,以前我試過把抓下來的古文進行簡繁轉換,後來越研究越發現困難。

可以參考維基的簡繁轉換表:維基簡→繁轉換表

裡面記錄了簡體文本至繁體文本轉換時的 350組 問題

另外維基也有一個繁簡轉換表:維基繁→簡轉換表

裡面記錄了繁體文本至簡體文本轉換時的 44組 問題。很多人認為繁體轉簡體可以省去校對,其實是誤解,只是比起簡體轉繁體問題較少罷了~

無論是 簡→繁 或是 繁→簡,都無法單靠機器翻譯,最終我放棄了文本轉換,把手上文本全部廢棄,依古文從頭建立全繁體的文本,才得到較完善的電子文本。( 雖然仍有1%古體字差異,但影響層面較小。現在有 WFG全宋體 後,新建立的文本連這1%都可以消除。 )

2 Likes

是的,易混淆字不只8组,上面这8组只是从Unicode数据库里识别出来的,会在繁简转换时出现繁简同码的情况,当然还有更多的,比如:

氾 泛|氾
昇 升|昇
蒐 搜|蒐

但是Unicode数据库并没有收录,原因未知。

Unicode数据库还有个很奇怪的地方。把鹃(9e43)和鹂(9e42),视作Z变体。在日韩这两个是指同一种鸟?

U+9E43 kZVariant U+9E42

感谢,请教下刚发现在文本1715里没有鹃和鹂的繁体字,是漏了吗还是什么原因不加上?

在《通用规范汉字表》里是有的:

2640 鹃 (鵑)
5111 鹂 (鸝)

我發的只是一對多的關係,以為話題是講這個。
一對一的,應當沒有難題,只看全不全面而已。

1 Like