汉语大词典从没经过转码的文本（自动转码谬种流传）

spoony · 2020 年10 月 29 日 09:32

汉语大词典文字版经过自动转码以后谬种流传，虽经仁人志士无穷次修订而无法彻底排除簡繁复杂对应造成的问题。最新的阿弥陀佛5月版及9月版均有这样的问题。
此贴上传版本为原始未经转码的文本，不存在这类问题，希望任何进一步的修订合并能基于此版本。不让簡繁转换造成的错误无限延续下去。

经确认，也是转换过的脑残版。

Vim · 2020 年10 月 29 日 09:40

转码具体是指繁简转换吗？

这个原始未经转码文本的来源或版本是什么？这个词典看到无数个版本。

spoony · 2020 年10 月 29 日 10:09

此版本原始出现于stardict，但后来流行的版本或多或少都经过了不可逆的转换。
至于2.0还是3.0我就不清楚了。反正网上讨论的错误这个版本多没有。虽然没有补订，但可靠性比其它版本要好。

sculiuchang · 2020 年10 月 29 日 11:08

可以直接用工具制作成m dx文件吗？

lurker · 2020 年10 月 29 日 12:43

楼主发的这版，也是机器简转繁的。空欢喜一场。大家不必浪费时间了。

葉聖陶《李太太的頭發

spoony · 2020 年10 月 29 日 13:10

竟然也有问题，谁一开始脑残搞繁简转换的？这下再无干净版本了，我怀疑出版社的光盘版就已经脑残了。

阿弥陀佛 · 2020 年10 月 29 日 14:43

阿弥陀佛5月版是提取3.0光盤，沒有轉碼。有錯誤也是出版社的原始錯誤。

Existentialismus · 2020 年10 月 29 日 17:01

我觉得可以开个帖子大家收集错误，慢慢改错

mooned · 2020 年10 月 30 日 05:30

現在同時用著兩款文字版和一款圖片版。
也不知道 2023 年漢語大詞典修訂版能不能順利面世，原定的出版日期已經推遲了一回。

灵寿木 · 2020 年11 月 24 日 12:58

求《汉语大词典》PDF版

shaoshi · 2021 年8 月 13 日 05:17

汉字转码和繁简转换是两个不同的问题。过去，港台电脑中文系统的内码是Big5，大陆电脑中文系统的内码是GBK。现在电脑系统的内码是Unicode，但是还可以制作GBK或Big5内码的文本。
《汉语大词典》简体光盘2.0的内码是GBK，繁体3.0的内码大概是Big5。
Big5的字比GBK少，繁难字必须造字。造字是跟着特定字型走的，一换字型就错，假如再转码，当然会错得一塌糊涂。这种问题只能人工校对纠正，无法用软件自动转换。因为没有软件能预测在某个字型某个区位里放的到底是什么字。
假如资料转码后再进行繁简转换，又会再添一层错误。
依我个人的浅见，除非愿意人工校对纠正，就别用繁体3.0的资料。用Gbk简体光盘2.0重新抽取资料，不要进行繁简转换，本来简体就简体，繁体就繁体，然后用图像版增补资料。这样弄出来的版本就真正可靠。

shaoshi · 2021 年8 月 13 日 05:46

理论上，可以调查一下繁体3.0专用字型的自造字区位里放的都是哪些字，然后写一个程式，将各个区位的字换成对应的GBK正确区位。我写不出这样的程式，高手应该能做到。可能调一下标准的转换表特定区位的字就行。
假如不能写程式，人工操作，可能可以这样做：用字型软件查看繁体3.0专用字型的自造字区位里的字，抓图列表。
转换前，每个字检索一下，找一个用例。
转换后，检索用例，看转错成为什么字。
然后批量替换。批量替换可以利用textpro，用替换表做。

myfav · 2021 年8 月 13 日 06:10

留意到阿弥陀佛大侠喜欢将电子词典用机器简转繁，然后提供一个所谓“正体版”给大家使用。说实话，此版本用处不太大。毕竟用机器“简转繁”，以目前的准确率来看，肯定会存在一些啼笑皆非的转换错误。读者拿到这种似是而非的“正体版”，用也不是，不用也不是——这么说吧，不足为据者也！

手拿一份明知肯定会有错误的文本，那是绝对无法直接引用到严肃的文章当中的。如此一掂量，真不如拿原始的简体文本更实在！毕竟，写简体文章引用简体原文，是无问题的。

比较尴尬的是，经一次“简转繁”后的文本，再经一次“繁转简”，很可能无法恢复简体字原状！因为，除了简转繁有“一对多”，繁转简也会有“一对多”！这当中有坑，且无从规避！举几个简单的例子：

这一本世界名着
这是他的着作
君子终日干干

这便是繁转简的错误。所以，最好还是不要作机器转换，意义真不太大，只会徒增错误。

last_idol · 2021 年8 月 13 日 07:05

现在简繁转换做最好的是 opencc，但即使是 opencc 也有很多错误修不过来，还有人名地名这种转换，没法修。

···
前头发生 → 前頭髮生
···

myfav · 2021 年8 月 13 日 07:23

若实在想看“伪繁体”，不妨改一下css，拿一种“伪繁体字库”凑合一下子。
当然，它比机器“简转繁”效果更差一些，好处是：
不必对原始简体文本作“有损转换”，不必破坏原始文本准确性。
zfull-big5New.rar (7.1 MB)

hua · 2021 年8 月 13 日 07:59

要更准确得上一下 NLP

shaoshi · 2021 年8 月 13 日 08:57

去看了一下opencc，我个人认为：

(1)opencc只适合转换小段文字。用textpro可以转换整个文件。

(2)用textpro，可以制作自己的繁简文字转换表，在textpro中重复使用，不断完善。用网上程式就无法这样调整。

myfav · 2021 年8 月 13 日 09:24

我曾经仔细比对过Textpro和ConvertZ 8.02的转换结果，事实上，若论准确性，ConvertZ更胜一筹。原因很简单：ConvertZ是香港同胞制作的，作者对于繁体字的使用，比咱们内地人更为熟稔。

这绝非妄自菲薄。问题摆在这里了：

你我平时几乎用不到繁体字，突发奇想撸起袖子，就想搞“简繁体转换”——那纯属瞎搞！瞎胡闹！必须是日常使用繁体字的人，才能做得好这件事情。

ConvertZ.8.02.zip (772.6 KB)

shaoshi · 2021 年8 月 13 日 09:31

用字型来做“伪繁体”的主意很有趣，但也许没多少人会去实际运用。

现在的动态html技术已经能做到按键显示或隐藏某种内容。所以还有一种可能是：保留原来的简体内容，另外添加一层繁体内容，按键可以在繁体、简体之间切换。如此一来，读者就能知道原始内容的真实面貌，在阅读时也可以各从所好。

Mastameta · 2021 年8 月 13 日 16:47

之前有網友跟我提過opencc，我瞧了一下他簡繁轉換，大概4,500字吧。而且卻是有錯誤，甚至涉及到異體字的關係，跟純粹轉換有脫離。

我這裡提供個6,500字的轉換表，也許有人覺得管用。這算是保守轉換，盡量不改偏旁，除非《漢語大字典》或《通用规范汉字表》2013特別說，也不考慮習慣用法和異體字的關係。採納的異體字都標上，跟正常轉換分辨。
~~Simp-Trad - 保守轉換 6573.txt~~ （後來又重新整理了）

我自己不在乎這個的（希望任何字典都不要轉換），所以沒想弄得完整。要真的去搞，應當還有一大堆，因為類推簡化字很多。