纯繁体词典,在文件命名时,若能加一个前缀或后缀“【繁】”就好啦!

春节电影档票房冠军《满江红》,因一张海报引发巨大争议:

满江红海报

论坛上有些词典,是用电脑直接“简转繁”而来,却命名为“正體版”。
有些呢,用电脑直接“繁转简”,然后并列加入简体词头,命名为“简繁通搜版”。

我们知道,无论“简转繁”或“繁转简”,皆必然会产生大量的转换错误,且这类错误绝对无从避免。
我特意用了“必然”、“绝对”这样的词,并非要刺激网友,引发论战,而是描述客观事实:
以目前的技术手段,对词典进行简繁双向转换,必然是“有损”的,且错误率远远高于万分之一。
事关,若能“无损”转换简繁体,那么,词典用简或用繁,谁还在乎?——不合用自己转就是了。

我们查字词典,有一个默认前提,或者说,有一个断言:
断言字词典的数据内容是准确的、可信的,我们可以直接采信词典的内容,而不必担心错误率会超出可承受的范围(借用一下出版物管理条例的规定:合格出版物的差错率应低于万分之一)。

“简繁转换”、“简繁通搜”转换出来的词典,恰恰是主动地、人为地替原本准确无误的词典,添加大量的转换错误。
如此做法,可能得不偿失。
这会导致辛辛苦苦做出来的词典,不足为据也。
因为,准确,这是任何一部词典存在的首要基础与意义。
主动查阅一部明知有错,甚至有大量错误的词典,这近乎是赌,是冒险,或者说,近乎是自虐行为。

一部词典,无论词头或正文,它原本是什么样,就应维持原样,不应随意进行”繁简转换“。
“简繁通搜”应尽可能地在软件层面实现,而不应直接固化到数据层面。
事关,词典一经“简繁转换”或“简繁转换”,数据便再也无法恢复原状了。
大兄弟啊,这种转换,是不可逆的——是有损的,而非无损的!

我相信,下一次——如果还能有下一次的话——《满江红》剧组的工作人员,这辈子一定不敢再去查什么“(伪)正體版”或“简繁通搜版”词典了。
他们一定会发疯一样寻觅带有前缀或后缀“【繁】”的词典。
他们不能再去查那些明知有错误的“(伪)正體版”或“简繁通搜版”词典。
他们不能明知故犯。
——真心的。

1 个赞

说得不错,但这部影片本身具有大量的政治隐喻,剧组着重表现政治意味,却忽略了宣传上的细节,确实该批评。

不妥协连里面的好东西也无法放出来,比如那句“堂审中,逆贼张大凶悍暴起刺杀武大人”,比如背个“满江红”多么义正言辞却是被逼着诵读的。就跟“道可道非常道”一样,道是啥意思不重要,重要的是一个东西可能不是以为的那样,我书读得少,这叫质疑思考、批判精神?

面对强敌可以打持久战,但媾和后又没翻盘的秦桧才会被抓典型骂,骂皇帝又不敢,只能欺负欺负能欺负的了。赢了的勾践、汉武会有人夸,秦桧还是太菜,只怂,但最后没赢,广大人民的眼睛是雪亮的,谁赢了帮谁、夸谁。

国内媒体宣传的民众砸秦桧像又是什么东西导致的呢?只敢拿雕像泄气的nationalists.

2 个赞

砸雕像和评论、刷视频、打游戏吃吃喝喝差不多,都是娱乐,有什么区别吗。

那以前砸日本车又是什么导致的,别人买的车让一群暴民砸?

那群人敢不敢砸博物馆里的文物?呵呵,文革遗留下来的陋习

以圣人、法律为标准,现实中的人当然有不好的人了。

但这些不好、各个方向的人,却是环境所能承载的当时发展水平所应该存在的。一代人只能做一代人的事,你现在不砸,是因为你有比他们更好的基因、受教育环境、更好的选择等,方向上趋于长远。

智力情绪缺陷跟生理缺陷没什么不同,大家只是大自然的产物。想与不想、做与不做,有的神交给你控制权,有的天替你做主,甚至让你看不到、想不到、想到做不到、做到再给你毁了。

一句话,他们这么做应该被批判,但他们也是合理的一部分,甚至是为合理的大部分做出牺牲的一部分。

之所以劝你,是我觉得说这些事是怎么样,跟怎么尽人力改善这些事是两码事,他们应该被批判和怎么减少这种情况相比,后者更重要些,更值得费口舌。

dada兄经常喜欢批判,只指措施的方向而无具体。又兼有指出更多问题、指责人。是加剧矛盾的做法,有时这种加速有用,但大部分当事人等不到有用的到来,所以经常被人反对。多行善事,善在人,也在己。

1 个赞

主题帖中的满江红简繁的问题,和很多词典的问题是一样的

  1. 想要精确性,是有成本的
  2. 这个成本和收益不对等,就不会付出这个成本
  3. 就满江红那几个字,找一两位会繁体的书法家找不到吗? 还是不值得这么精细,因为很少人去关注这个事,大家发现的很多问题都没有什么价值性,所以才留到给大家发现,这是得到了优劣中的劣,而这个劣是很多人为了优而放弃的东西。

对更聪明的人们来说,优先级太低,比如看帖回帖他们都不会做。

不是所有不对不合适都应该校正,尤其是有更重要的事情前。有时人们交织于一时,能互相分享,已经是缘分了。

在软件层面实现“简繁通搜”,这意味着,无论用户输入简体或繁体的关键字,皆能迅速搜索到正确无误的原始词条,并且词典内容均能保持原样地、准确地呈现无错误的释义内容;同时,词典本身也不必存储任何可能有错的数据。

若在数据层面实现“简繁通搜”,则无法显式地、明确地提示用户:哪些是原词,哪些是“经繁简转换可能存在错误”的“可疑词”。关键的一点,简繁体两种词头平列,无任何标记可供迅速区分二者。

不仅是繁简,还有英语的变形数据映射,做好了可以不用手动搜索原型,任意的文本中的各种大小写各呼呼变形,直接触发查询,以及所有词典都可以按照这个映射表进行检查词条的内容合法性。

这个东西要做要推进要落实,需要软件开发和汉字爱好者有机的组织起来。

分散各处的mdx自己处理的话,看各人功力。

集中于一体公开,可以持续优化,取之于民,用之于民。人一力有限,人群力可以无限。

这是一个以简体词典为主的论坛,在命名时,简体词典自然无需添加任何标记;
若经“简转繁”,建议词典命名时,加注一个前缀或后缀【简转繁】;
若经“繁转简”,建议词典命名时,加注一个前缀或后缀【繁转简】;
若经“简转繁”,且手动校对过,建议词典命名时,加注一个前缀或后缀【简转繁:粗校/一校/二校/精校】;
若经“繁转简”,且确信准确率达到了出版级,建议词典命名时,加注一个前缀或后缀【繁转简:出版级】;
……

如此,网友们获得电子词典后,即能心中有数——
【繁转简】、【简转繁】:好的,此词典可用于日常随意翻阅,切勿用于正式的学习、学术、研究等专业场合;
【繁】:好的,此词典可用于繁体字的学术研究与正式引用。
【繁转简:精校】:好的,此词典可参照纸质书后,在学习中使用。
【OCR:一校】:好的,此词典聊胜于无。
无标记:好的,此词典可在简体环境下使用。

您累不累,原书是怎样的,mdx就怎样,建议不要加一大堆无关信息。

命名在category, tag, topic 上的必选和可选的设计,是平衡的结果,更精细自然有助于信息自身,但代价会导致发帖的步骤更多、发帖量更少。

二来,一般 topic 都会有说明,而且为了简繁这个信息,还可以在 reply 中提问。多种形式可选解决这个问题,更自由。

至于论坛以什么为主,相信喜欢数据的楼主可以从这个链接中得到答案 https://forum.freemdict.com/top?period=all

考虑现状,app和mdx都不动的情况下,可以公开词头的简繁处理代码,进行数据的重新编排,重点是隔离开逻辑、可单独演化,而不是要改进就得学软件、mdx各种不必要的处理额外的负担。

有点好奇,您是不是6兄的匿名版本?

这个是,我尽量不吵架,所以匿名应该没啥问题吧 :laughing:

匿名可以记录分类我的回复,整理时可以有标记,不然那个帐号1000多回复我还没整理完,每次要划半天,下载的数据又不好看,想删一天只能删2个,总之就是 discourse 没有视图分类标记功能,和数据混一起了,小号我忘密码了,举步维艰。

之所以突然冒出这样一个想法,缘于这样一个尴尬事:

非常感谢网友们的热心分享,陆续从论坛下载了许多相当珍贵的中文词典,简体、繁体都有不少!
最近因工作关系,我需要查阅准确的繁体字,需要用到繁体字词典。
然而,面对着从论坛下载的一大堆的繁体字词典,我竟发觉,几无从下手!
除了几部能够确信源数据是纯繁体字的词典,如:《國語辭典簡編本》、《重編國語辭典修訂本》(注:未加入简体词头的版本)和《五南國語活用辭典》,其他大量繁体字词典,几乎一部也不敢用!——因大部分经“简繁转换”而来,词头与内容,皆存在大量的简繁转换错误。

查繁体字,自该用繁体字词典;
然而,本论坛分享的大量的繁体字词典,却几乎没法用——
只因这四个字:不足为据!
——没错儿,就是这么一个尴尬事!

同理——借用某位网友的“口头禅”——查简体字,自该用简体字词典。经“繁转简”的词典,同样生造出大量转换错误,且这些错误还很隐蔽!如此这般,导致谬种流传,不亦惑乎?

印象中,以前举过这个例子:

搜"干竺",百度为您找到相关结果约9,170,000个(外网或科学上网的网友不妨也搜一搜google的结果)——

其实,《易传》云:“乾为天”,“乾竺”即“天竺”,哪来的甚么“干竺”呢?还煞有介事地标注:“拼音:[ ɡān zhú ] 注音:ㄍㄢㄓㄨˊ ”
这纯粹是“繁转简”的转换错误。
网络上的东西,以讹传讹,并不奇怪;然而,做字词典时,也随意进行“繁转简”,并将转换得到的错误结果,固化到电子词典的数据内容当中,这可就相当尴尬啦!

——没错儿,就是这么一个尴尬事!

1 个赞