词典软件繁简搜索【乾干著着】

last_idol · 2022 年7 月 9 日 08:13

繁简转换有多个易混淆的字。

如乾干、著着、覆复，词典软件是否需要把它们的相关结果全部搜索出来？

全部搜索的结果如下：

输入 [乾] → 显示 [乾、乾坤、干、干活]
输入 [着] → 显示 [着、着相、著、著名]
输入 [复] → 显示 [复、复杂、覆、覆盖]

不需要
需要

0 投票人

目前发现，中华书局、文渊阁四库全书，是支持全部搜索出来的。
不知道普通的词典软件是否也需要这么做。
方便的话，回复下需要或者不需要的原因。

alexpeng · 2022 年7 月 9 日 09:26

DictTango 有这样的显示：

原因嘛……搜索更全面？

last_idol · 2022 年7 月 9 日 09:44

繁简转换，有一对多情况的单字有55组：

乾乾|干
噹当|𪠽
復复|復
徵征|徵
戰战|𢧐
瀋沈|渖
灠漤|𰜐
灡㳕|𬉠
瞭了|瞭
線线|缐
緻致|𰬫
繡绣|𰬩
著着|著
藉借|藉
蘋苹|𬞟
蘭兰|𬞕
裡裡|里
覆复|覆
註注|𬣣
詠咏|𰵞
誌志|𰵧
謲𬢳|𬤄
譸诪|𬢪
譾谫|𫍿
買买|𧹒
賬账|𧹔
贓赃|𰷭
蹤踪|𧿛
輓挽|𬨈
鉤钩|𰽭
錶表|𰾍
鍾钟|锺
鏇旋|镟
鐫镌|𰾹
鑽钻|𰿆
開开|𫔭
閤合|𬮤
闆板|𬮳
闢辟|𰿾
靦䩄|腼
韆千|𱁶
韻韵|𱂐
願愿|𫖸
颱台|𱃗
餘余|馀
餚肴|𬳁
餱糇|𫗯
鱄𫚋|𱈐
鱨鲿|𱈘
鱷鳄|𱈚
鶂𬷼|𱊈
鷿䴙|𬸯
鸒𱉰|𱊭
麯曲|𱋐
齣出|𱌮

易混淆的单字只有8组：

乾乾|干
復复|復
徵征|徵
瞭了|瞭
著着|著
藉借|藉
裡裡|里
覆复|覆

surfactant · 2022 年7 月 9 日 09:48

大神，麻烦看看我用 DictTango 为什么碰到明明有这个词却搜不到的问题，谢谢！

https://forum.freemdict.com/t/topic/2354/1040

mdict6 · 2022 年7 月 9 日 10:38

我补一个

沈｜沉

zheshijie · 2022 年7 月 9 日 10:52

如果要追求全面，还应该加入异体字，比如為爲，戶戸，其实简体本质上也是异体

last_idol · 2022 年7 月 9 日 10:55

异体字也考虑进去了。现在就是上面那8组易混淆的单字，要不要做通搜。

last_idol · 2022 年7 月 9 日 11:03

中华书局有支持：

输入 [沉从文] → 显示 [沈从文]

zheshijie · 2022 年7 月 9 日 11:07

不知道你说的异体是不是我说的，我说的包含的比较广，包括日韩写法，以及字形有微小差异但unicode编码不同的那些字，甚至误收的，如果这些都整理好了，那就非常棒了

last_idol · 2022 年7 月 9 日 11:19

中日韩共用汉字包括进去了，异体字的概念很复杂，这里说的异体字，是指《通用规范汉字表》里的异体字：

𤰜畂𤱈畆畮 → 亩
劒劍剣 → 剑

但是《通用规范汉字表》没有收录：

沈 → 沉

虽然《异体字字典》有收录，可是里面有非常多的互为正异体的情况，数据没法用，需要人工处理：

踊 → 踴
踴 → 踊

Mastameta · 2022 年7 月 9 日 17:06

簡體|繁體，我當作異體字關係來處理。從這個角度來看，一對多的關係可以弄出五、六百多簡化字，看你用什麼條件來過濾或分類呵呵。我收拾的有 1,715 行。要找怪案子，搜 “unexpected”、“⫳”、“≠”、“⩮”。（TYGF=通用規範字表。大多異體字來自此表；我自己另外加的，加得挺謹慎。如果拼命加異體，當然可以膨脹到幾點。）
View in Emeditor in Tab-separated mode.
[1715 Simp-Trad.txt|attachment]

glacierlee · 2022 年7 月 10 日 04:14

是因为DictTango有如下的映射

当|噹
当|當
发|髮
发|發
复|複
复|復
干|幹
干|乾

DictTango在查词的时候，如果有开简繁通查，会根据映射尽可能匹配结果，如果用户有自己的异体字映射，也可以建立自己的映射库并加到DictTango中。

alexpeng · 2022 年7 月 10 日 04:31

我说的“原因”是回应楼主说的“回复下需要或者不需要的原因”

glacierlee · 2022 年7 月 10 日 04:32

原来如此

Yuki · 2022 年7 月 11 日 02:34

不只8組，以前我試過把抓下來的古文進行簡繁轉換，後來越研究越發現困難。

可以參考維基的簡繁轉換表：維基簡→繁轉換表

裡面記錄了簡體文本至繁體文本轉換時的 350組問題

另外維基也有一個繁簡轉換表：維基繁→簡轉換表

裡面記錄了繁體文本至簡體文本轉換時的 44組問題。很多人認為繁體轉簡體可以省去校對，其實是誤解，只是比起簡體轉繁體問題較少罷了~

無論是簡→繁或是繁→簡，都無法單靠機器翻譯，最終我放棄了文本轉換，把手上文本全部廢棄，依古文從頭建立全繁體的文本，才得到較完善的電子文本。( 雖然仍有1%古體字差異，但影響層面較小。現在有 WFG全宋體後，新建立的文本連這1%都可以消除。 )

last_idol · 2022 年7 月 11 日 03:46

是的，易混淆字不只8组，上面这8组只是从Unicode数据库里识别出来的，会在繁简转换时出现繁简同码的情况，当然还有更多的，比如：

氾泛|氾
昇升|昇
蒐搜|蒐

但是Unicode数据库并没有收录，原因未知。

Mastameta · 2022 年7 月 13 日 15:35

我發的只是一對多的關係，以為話題是講這個。
一對一的，應當沒有難題，只看全不全面而已。

endnote · 2022 年9 月 13 日 05:06

这是个有意思的话题。

方法众多，但一直持续更新的项目只有 Open Chinese Convert，比较好用。
GitHub - BYVoid/OpenCC: Conversion between Traditional and Simplified Chinese

懂点Python的，简单几行命令就能实现转换。

此外，最近 VS Code 有人做了一个支持 OpenCC 的拓展：opencclint，版本号才 0.0.2。这个拓展在 VS Code 可以直接用，比较傻瓜

=======
汇总一下相关贴子里头提到的旧资源，供参考：

漢字簡繁文體智能轉換系統（WORD插件的更新日期在2014年）
http://jf.xmu.edu.cn/

繁化姬（Fanhuaji-1.6程序的更新日期在2017年）

zh.wikipedia.org

簡繁轉換一對多列表

本列表按简化字筆畫數羅列了一個简化字對應多個繁體字的情況。淡紅底色的是簡化字；淡藍底色的是可對應的繁體字。以下是繁體中文裏可以互換的漢字構件的寫法。并、秃於前文中亦有列出。當一個簡體字所對應的複數個繁體字在意義上差異很大而且皆很常用，此時就很難設計一套能總是無誤地由簡体轉成繁體的轉換規則，一般需要透過人工校正。例如只（隻）、丑（醜）、发（發髮）、范（範）、卷（捲）、须（須鬚）、松（鬆）、后（後）、制（製）、郁（鬱）、御（禦）、姜（薑）、杰（傑）、云（雲）、准（準）、系（係繫）、几（幾）、冲（沖衝）、里（裏裡）、采（採）、干（乾幹）、复（複復覆）、于（於）、斗（鬥）等等都是容易發生轉換錯誤的字。有不少字簡化時被合併至另一字，有时字源和意义不相关，甚至读音也不同、历史上从未或很少通用的字也被合并，如“叶（xié/ㄒㄧㄝˊ，粵：hip6）”和“葉（yè/ㄧㄝˋ，粵：jip6）”合并为“叶”、“适（kuò/ㄎㄨㄛˋ，粵：kut3）”和“適（shì/ㄕˋ，粵：sik1）”合并为“适”、“朴（piáo/ㄆㄧㄠˊ，pō/ㄆㄛ，pò/ㄆㄛˋ）”和“樸（pǔ/ㄆㄨˇ）”合并为“朴”，这样一来就...

zh.wikipedia.org

繁簡轉換一對多列表

本列表按繁體字筆畫數排列，羅列了一個繁體字可對應多個簡體字的情況。淡藍底色的是繁體字，淡紅底色的是可對應的簡體字。以下轉換規則中，有些可能和舊版漢字規範有關，但相關規範已經廢除；有些是因為兩岸三地的語文差異產生的。繁體字「寧（níng）」的簡化字是「宁」；但繁體字「宁（zhù）」本身作门屏之间解，其簡化字是「㝉」：「㝉」只出現在《簡化字總表》注釋而非正文，「宁」是「貯」的本字，与「寧」没有关系，为避免此「宁」字与「寧」的简化字混淆，原读zhù的「貯、佇、苧、紵」作「贮、伫、苎、纻」。繁體字「薴（níng）」是指一種芳香有機化合物（Limonene），也用於「薺薴」，其簡化字是「苧」；而繁體字「苧（zhù）」是苧麻，是多年生草本植物，其簡化字是「苎」。

簡正轉換別字表.rar (115.7 KB)
繁簡字常見錯誤（補註版）
容易搞错的繁简体字

jfcherng · 2023 年1 月 20 日 13:04

我是繁化姬的作者，該所謂 Fanhuaji-1.6 為網友的作品，作者已失聯。

所有與繁化姬有關的公開程式（包含網頁版本身）皆為基於繁化姬的 API ，因此它們是否更新並不是很重要，只要繁化姬 API 背後的東西有在維護就可以了。

以正確率而言，繁化姬不服。如果需要離線版的話，個人同意 OpenCC 為可接受的方案。

myfav · 2023 年1 月 21 日 09:38

很開心在此遇上高人——很用心製作程式的高人！

我曾嘗試，從網頁當中，隨意抽取出二千餘個簡體詞組，然後分別用三個不同程式（繁化姬、Word和Unihan），進行「簡轉繁」；再用程式分別比對三組轉換結果，各得出300多組「轉換差異」，以此測試三個簡繁轉換程式的準確率。

測試結果：繁化姬的「簡轉繁」，是三者之中準確率最高的！附件是測試所用的簡體源文檔、目標繁體文檔以及簡繁轉換差異對比報告。

Chs2Cht.rar (45.5 KB)
Chs2Cht_Different_Report.rar (27.8 KB)

簡體源文檔特意抽取了部分非常用詞，甚至有可能是錯詞，以此考驗三种轉換程式的「隨機應變」能力。