汉语大词典从没经过转码的文本(自动转码谬种流传)

汉语大词典文字版经过自动转码以后谬种流传,虽经仁人志士无穷次修订而无法彻底排除簡繁复杂对应造成的问题。最新的阿弥陀佛5月版及9月版均有这样的问题。
此贴上传版本为原始未经转码的文本,不存在这类问题,希望任何进一步的修订合并能基于此版本。不让簡繁转换造成的错误无限延续下去。

经确认,也是转换过的脑残版。

1 个赞

转码具体是指繁简转换吗?

这个原始未经转码文本的来源或版本是什么?这个词典看到无数个版本。

2 个赞

此版本原始出现于stardict,但后来流行的版本或多或少都经过了不可逆的转换。
至于2.0还是3.0我就不清楚了。反正网上讨论的错误这个版本多没有。虽然没有补订,但可靠性比其它版本要好。

1 个赞

可以直接用工具制作成m dx文件吗?

楼主发的这版,也是机器简转繁的。空欢喜一场。大家不必浪费时间了。

葉聖陶《李太太的頭發
1 个赞

竟然也有问题,谁一开始脑残搞繁简转换的?这下再无干净版本了,我怀疑出版社的光盘版就已经脑残了。

2 个赞

阿弥陀佛5月版 是提取3.0光盤,沒有轉碼。有錯誤也是出版社的原始錯誤。

1 个赞

我觉得可以开个帖子大家收集错误,慢慢改错

現在同時用著兩款文字版和一款圖片版。
也不知道 2023 年漢語大詞典修訂版能不能順利面世,原定的出版日期已經推遲了一回。

求《汉语大词典》PDF版

1 个赞

汉字转码和繁简转换是两个不同的问题。过去,港台电脑中文系统的内码是Big5,大陆电脑中文系统的内码是GBK。现在电脑系统的内码是Unicode,但是还可以制作GBK或Big5内码的文本。
《汉语大词典》简体光盘2.0的内码是GBK,繁体3.0的内码大概是Big5。
Big5的字比GBK少,繁难字必须造字。造字是跟着特定字型走的,一换字型就错,假如再转码,当然会错得一塌糊涂。这种问题只能人工校对纠正,无法用软件自动转换。因为没有软件能预测在某个字型某个区位里放的到底是什么字。
假如资料转码后再进行繁简转换,又会再添一层错误。
依我个人的浅见,除非愿意人工校对纠正,就别用繁体3.0的资料。用Gbk简体光盘2.0重新抽取资料,不要进行繁简转换,本来简体就简体,繁体就繁体,然后用图像版增补资料。这样弄出来的版本就真正可靠。

理论上,可以调查一下繁体3.0专用字型的自造字区位里放的都是哪些字,然后写一个程式,将各个区位的字换成对应的GBK正确区位。我写不出这样的程式,高手应该能做到。可能调一下标准的转换表特定区位的字就行。
假如不能写程式,人工操作,可能可以这样做:用字型软件查看繁体3.0专用字型的自造字区位里的字,抓图列表。
转换前,每个字检索一下,找一个用例。
转换后,检索用例,看转错成为什么字。
然后批量替换。批量替换可以利用textpro,用替换表做。

留意到阿弥陀佛大侠喜欢将电子词典用机器简转繁,然后提供一个所谓“正体版”给大家使用。说实话,此版本用处不太大。毕竟用机器“简转繁”,以目前的准确率来看,肯定会存在一些啼笑皆非的转换错误。读者拿到这种似是而非的“正体版”,用也不是,不用也不是——这么说吧,不足为据者也!

手拿一份明知肯定会有错误的文本,那是绝对无法直接引用到严肃的文章当中的。如此一掂量,真不如拿原始的简体文本更实在!毕竟,写简体文章引用简体原文,是无问题的。

比较尴尬的是,经一次“简转繁”后的文本,再经一次“繁转简”,很可能无法恢复简体字原状!因为,除了简转繁有“一对多”,繁转简也会有“一对多”!这当中有坑,且无从规避!举几个简单的例子:

这一本世界名着
这是他的着作
君子终日干干

这便是繁转简的错误。所以,最好还是不要作机器转换,意义真不太大,只会徒增错误。

2 个赞

现在简繁转换做最好的是 opencc,但即使是 opencc 也有很多错误修不过来,还有人名地名这种转换,没法修。

···
前头发生 → 前頭髮生
···

若实在想看“伪繁体”,不妨改一下css,拿一种“伪繁体字库”凑合一下子。
当然,它比机器“简转繁”效果更差一些,好处是:
不必对原始简体文本作“有损转换”,不必破坏原始文本准确性。
zfull-big5New.rar (7.1 MB)

要更准确得上一下 NLP

1 个赞

去看了一下opencc,我个人认为:

(1)opencc只适合转换小段文字。用textpro可以转换整个文件。

(2)用textpro,可以制作自己的繁简文字转换表,在textpro中重复使用,不断完善。用网上程式就无法这样调整。

1 个赞

我曾经仔细比对过Textpro和ConvertZ 8.02的转换结果,事实上,若论准确性,ConvertZ更胜一筹。原因很简单:ConvertZ是香港同胞制作的,作者对于繁体字的使用,比咱们内地人更为熟稔。

这绝非妄自菲薄。问题摆在这里了:

你我平时几乎用不到繁体字,突发奇想撸起袖子,就想搞“简繁体转换”——那纯属瞎搞!瞎胡闹!必须是日常使用繁体字的人,才能做得好这件事情。

ConvertZ.8.02.zip (772.6 KB)

用字型来做“伪繁体”的主意很有趣,但也许没多少人会去实际运用。

现在的动态html技术已经能做到按键显示或隐藏某种内容。所以还有一种可能是:保留原来的简体内容,另外添加一层繁体内容,按键可以在繁体、简体之间切换。如此一来,读者就能知道原始内容的真实面貌,在阅读时也可以各从所好。

之前有網友跟我提過opencc,我瞧了一下他簡繁轉換,大概4,500字吧。而且卻是有錯誤,甚至涉及到異體字的關係,跟純粹轉換有脫離。

我這裡提供個6,500字的轉換表,也許有人覺得管用。這算是保守轉換,盡量不改偏旁,除非《漢語大字典》或《通用规范汉字表》2013特別說,也不考慮習慣用法和異體字的關係。採納的異體字都標上,跟正常轉換分辨。
Simp-Trad - 保守轉換 6573.txt (後來又重新整理了)

我自己不在乎這個的(希望任何字典都不要轉換),所以沒想弄得完整。要真的去搞,應當還有一大堆,因為類推簡化字很多。

1 个赞