词典软件繁简搜索【乾干著着】

繁简转换有多个易混淆的字。

如乾干、著着、覆复,词典软件是否需要把它们的相关结果全部搜索出来?

全部搜索的结果如下:

输入 [乾] → 显示 [乾、乾坤、干、干活]
输入 [着] → 显示 [着、着相、著、著名]
输入 [复] → 显示 [复、复杂、覆、覆盖]

  • 不需要
  • 需要

0 投票人

目前发现,中华书局、文渊阁四库全书,是支持全部搜索出来的。
不知道普通的词典软件是否也需要这么做。
方便的话,回复下需要或者不需要的原因。

5 个赞

DictTango 有这样的显示:

原因嘛……搜索更全面?

2 个赞

繁简转换,有一对多情况的单字有55组:

乾 乾|干
噹 当|𪠽
復 复|復
徵 征|徵
戰 战|𢧐
瀋 沈|渖
灠 漤|𰜐
灡 㳕|𬉠
瞭 了|瞭
線 线|缐
緻 致|𰬫
繡 绣|𰬩
著 着|著
藉 借|藉
蘋 苹|𬞟
蘭 兰|𬞕
裡 裡|里
覆 复|覆
註 注|𬣣
詠 咏|𰵞
誌 志|𰵧
謲 𬢳|𬤄
譸 诪|𬢪
譾 谫|𫍿
買 买|𧹒
賬 账|𧹔
贓 赃|𰷭
蹤 踪|𧿛
輓 挽|𬨈
鉤 钩|𰽭
錶 表|𰾍
鍾 钟|锺
鏇 旋|镟
鐫 镌|𰾹
鑽 钻|𰿆
開 开|𫔭
閤 合|𬮤
闆 板|𬮳
闢 辟|𰿾
靦 䩄|腼
韆 千|𱁶
韻 韵|𱂐
願 愿|𫖸
颱 台|𱃗
餘 余|馀
餚 肴|𬳁
餱 糇|𫗯
鱄 𫚋|𱈐
鱨 鲿|𱈘
鱷 鳄|𱈚
鶂 𬷼|𱊈
鷿 䴙|𬸯
鸒 𱉰|𱊭
麯 曲|𱋐
齣 出|𱌮

易混淆的单字只有8组:

乾 乾|干
復 复|復
徵 征|徵
瞭 了|瞭
著 着|著
藉 借|藉
裡 裡|里
覆 复|覆

3 个赞

大神,麻烦看看我用 DictTango 为什么碰到明明有这个词却搜不到的问题,谢谢!

我补一个

沈|沉

2 个赞

如果要追求全面,还应该加入异体字,比如為爲,戶戸,其实简体本质上也是异体

1 个赞

异体字也考虑进去了。现在就是上面那8组易混淆的单字,要不要做通搜。

中华书局有支持:

输入 [沉从文] → 显示 [沈从文]

不知道你说的异体是不是我说的,我说的包含的比较广,包括日韩写法,以及字形有微小差异但unicode编码不同的那些字,甚至误收的,如果这些都整理好了,那就非常棒了

中日韩共用汉字包括进去了,异体字的概念很复杂,这里说的异体字,是指《通用规范汉字表》里的异体字:

𤰜畂𤱈畆畮 → 亩
劒劍剣 → 剑

但是《通用规范汉字表》没有收录:

沈 → 沉

虽然《异体字字典》有收录,可是里面有非常多的互为正异体的情况,数据没法用,需要人工处理:

踊 → 踴
踴 → 踊

1 个赞

簡體|繁體,我當作異體字關係來處理。從這個角度來看,一對多的關係可以弄出五、六百多簡化字,看你用什麼條件來過濾或分類呵呵。我收拾的有 1,715 行。要找怪案子,搜 “unexpected”、“⫳”、“≠”、“⩮”。(TYGF=通用規範字表。大多異體字來自此表;我自己另外加的,加得挺謹慎。如果拼命加異體,當然可以膨脹到幾點。)
View in Emeditor in Tab-separated mode.
[1715 Simp-Trad.txt|attachment]

3 个赞

是因为DictTango有如下的映射

当|噹
当|當
发|髮
发|發
复|複
复|復
干|幹
干|乾

DictTango在查词的时候,如果有开简繁通查,会根据映射尽可能匹配结果,如果用户有自己的异体字映射,也可以建立自己的映射库并加到DictTango中。

3 个赞

我说的“原因”是回应楼主说的“回复下需要或者不需要的原因” :joy:

原来如此 :joy:

不只8組,以前我試過把抓下來的古文進行簡繁轉換,後來越研究越發現困難。

可以參考維基的簡繁轉換表:維基簡→繁轉換表

裡面記錄了簡體文本至繁體文本轉換時的 350組 問題

另外維基也有一個繁簡轉換表:維基繁→簡轉換表

裡面記錄了繁體文本至簡體文本轉換時的 44組 問題。很多人認為繁體轉簡體可以省去校對,其實是誤解,只是比起簡體轉繁體問題較少罷了~

無論是 簡→繁 或是 繁→簡,都無法單靠機器翻譯,最終我放棄了文本轉換,把手上文本全部廢棄,依古文從頭建立全繁體的文本,才得到較完善的電子文本。( 雖然仍有1%古體字差異,但影響層面較小。現在有 WFG全宋體 後,新建立的文本連這1%都可以消除。 )

3 个赞

是的,易混淆字不只8组,上面这8组只是从Unicode数据库里识别出来的,会在繁简转换时出现繁简同码的情况,当然还有更多的,比如:

氾 泛|氾
昇 升|昇
蒐 搜|蒐

但是Unicode数据库并没有收录,原因未知。

我發的只是一對多的關係,以為話題是講這個。
一對一的,應當沒有難題,只看全不全面而已。

1 个赞

这是个有意思的话题。

方法众多,但一直持续更新的项目只有 Open Chinese Convert,比较好用。
GitHub - BYVoid/OpenCC: Conversion between Traditional and Simplified Chinese

懂点Python的,简单几行命令就能实现转换。

此外,最近 VS Code 有人做了一个支持 OpenCC 的拓展:opencclint,版本号才 0.0.2。这个拓展在 VS Code 可以直接用,比较傻瓜

=======
汇总一下相关贴子里头提到的旧资源,供参考:

漢字簡繁文體智能轉換系統(WORD插件的更新日期在2014年)
http://jf.xmu.edu.cn/

繁化姬(Fanhuaji-1.6程序的更新日期在2017年)

簡正轉換別字表.rar (115.7 KB)
繁簡字常見錯誤(補註版)
容易搞错的繁简体字

3 个赞

我是繁化姬的作者,該所謂 Fanhuaji-1.6 為網友的作品,作者已失聯。

所有與繁化姬有關的公開程式(包含網頁版本身)皆為基於繁化姬的 API ,因此它們是否更新並不是很重要,只要繁化姬 API 背後的東西有在維護就可以了。

以正確率而言,繁化姬不服。如果需要離線版的話,個人同意 OpenCC 為可接受的方案。

很開心在此遇上高人——很用心製作程式的高人!

我曾嘗試,從網頁當中,隨意抽取出二千餘個簡體詞組,然後分別用三個不同程式(繁化姬、Word和Unihan),進行「簡轉繁」;再用程式分別比對三組轉換結果,各得出300多組「轉換差異」,以此測試三個簡繁轉換程式的準確率。

測試結果:繁化姬的「簡轉繁」,是三者之中準確率最高的!附件是測試所用的簡體源文檔、目標繁體文檔以及簡繁轉換差異對比報告。

Chs2Cht.rar (45.5 KB)
Chs2Cht_Different_Report.rar (27.8 KB)

簡體源文檔特意抽取了部分非常用詞,甚至有可能是錯詞,以此考驗三种轉換程式的「隨機應變」能力。