原帖是简转繁,单向转换,不存在转简问题。你不用就不用,一天到晚追着人骂干什么。
你一天到晚发的都什么帖子,得甲亢了?回家歇吧,别在外边丢人现眼。
“小而精”与“大而全”,这是两种截然相反的原则,《漢語大詞典》无疑属于后者。
《漢大》收录了33.44万+词头,其中很大一部分是古汉语词,且多为异体字词。随便举几个例子:
“粗略”,收录了“粗略、麤略”;
“粗细”,收录了“粗細、麤細”;
“粗粗”,它就收录了“粗粗、麤粗、麤觕、麤麤、觕觕”;
……
无论是“繁转简”或者“简转繁”,《漢大》当中这些数量极为庞大的异形词,都是极为严重的“杂音”、“干扰源”与“污染源”。
因为,本质上,汉字的“简繁相互转换”操作,是属于“正字←→正字”之间的相互转换,与异体字无关。
《漢大》的33.44万+词头,并不是简单的一个“除重”操作,就能随随便便直接拿来为我所用的!
词序很关键!!权重很关键!!!
类似“粗略←→粗略”,“粗粗←→粗粗”,这种简繁相互转换操作,必须保证有且仅有唯一的一种精确结果;然而随随便便导入《漢大》的33.44万+词头后,即便简单执行了所谓“除重”操作,操作者根本就无法保证转换结果,究竟会是“粗略”还是“麤略”?是“粗粗、麤粗、麤觕、麤麤、觕觕”当中的哪一个?
因为《漢大》词头并未针对词频作过任何精确的校正。我们完全可以这样说:
《漢大》词头是无序的。
在一堆完全无序的词头当中,进行“二选一”、“三选一”甚至“五选一”、“六选一”,这纯粹是“抓阄”——点指兵兵,点到哪个便哪个。
一句话总结:
在“简繁转换”领域,《漢語大詞典》的词头,根本不足为据者也。
顺便补充一句,《辭源》之类的“大而全”,也一样。
“大而全”,那只是拿来“备查”用的,而不是拿来“实操”用的。
在“简繁转换”领域,“小而精”才是正道!
那么,什么才是传说中的“小而精”?
呵呵,非常简单:
「小學生習字表」、「小學生常用字詞手冊」、「中學生必考詞彙」,这些便是最值得优先采用的“小而精”!
两岸三地的小学生、初中生、高中生的语文课内外要求必须掌握的常用字、词,这是我们在日常生活中,用汉语进行无碍交流的最通用、最常用(使用范围最广、使用频率最高)的一个最有效子集。这也是我们进行“简繁转换”操作的第一优选词形!
扫描完小学生、中学生词表,若没有匹配结果,继而再去扫描更大一点的汉语子集,比如:“國語辭典簡編本”。
扫描完“國語辭典簡編本”,仍没有匹配结果,再去扫描更大一点的汉语子集。
……最后才是《漢語大詞典》。
话说,谁还没个年少轻狂?谁还没个慷慨激昂?遥想十几年前,我老人家也觊觎过《漢語大詞典》,也在《漢語大詞典》这上边栽过跟头。说句不好听的话,那都是我们玩剩下的玩意儿了,甭惦记了。
呵呵。
有汉大词头的是
人家区分两个。不是全用。
专门面向【古籍】的简繁转换系统 - 资源分享 - FreeMdict Forum
和登楼古籍简繁转换一样,面向古籍。
你真不配说。连香港台湾人怎么用字都不了解,还在这碰瓷,不要脸。
说你是跳梁小丑一点不假
这当中存在一个难点,就是词频统计。
我们自己无法借助百度抓取繁体字词的相对准确的词频,因默认情况下,百度搜索似乎会自动将繁体的搜索关键字转换为简体,然后再返回简体的搜索结果。
谷歌其实也存在类似的情形,只不过稍好一点点而已。我们搜索任何一个词,简体词形得到的搜索结果,往往会比繁体词形的结果多出很多。估计是在简体的结果当中,也合并了繁体的结果。
繁体的词频表,我们只能下载一些来自中国台湾或中国香港的统计结果,然后,再与简体的词频表进行比对,这也是个很精细的技术活。