新华字典12-[结项]20220917

MinghuaHan · 2021 年5 月 16 日 15:18

楼主的确辛苦更改！我是有12版的PDF，不敢放出啊！如何文字识别就没有这么辛苦！

kaser · 2021 年5 月 16 日 17:42

来源HQ ICON

foggi · 2021 年5 月 16 日 23:21

请问楼主，原来那个hei_xhzd.ttf的字体文件，还有用吗？要不要删掉？

hua · 2021 年5 月 17 日 00:49

你可以悄咪咪的放出

MeigenChou · 2021 年5 月 17 日 00:57

之前网上流传的第10版文字版大概就是OCR，里面的错误比我手动校对的多。也有人做过10版的mdx，错误照旧，反正我是不敢用

MeigenChou · 2021 年5 月 17 日 01:02

是用来显示生僻字的

商务或者别的出版社喜欢把一些生僻字放在私有区，有的早已经收录进Unicode却不用，结果普通的电脑或手机都显示不了

Mastameta · 2021 年5 月 17 日 08:12

我沒研究過，只隨便瞧了詞頭，印象是私有区的字大概兩三十個吧。是不是打算都改成Unicode？
私有区代碼，除了顯示問題（要依賴某個TTF），主要副作用是不能跟別的字典通用，等於是斷了 union dictionary 的關係和功能。

《大辭海》MDX，數據來自商業網站，有一堆詞頭，幾百個好像，等於是亂碼 – 主要問題是“類推”的簡體字，很多是沒有Unicode，麻煩。莫名其妙的是，這種“類推”的簡化字只簡化了偏旁，聲符一般不變，本來就沒必要簡化。

MeigenChou · 2021 年5 月 17 日 09:23

应该是把发现有Unicode编码的都改回去了，剩下的要么Unicode没收录要么我没找到编码。对于类推简化字，如果实在Unicode没收录以及没有对应的字体显示，一般都是直接用繁体的

Mastameta · 2021 年5 月 17 日 10:29

“𰷥（賨）”的一個異體字是“賩”，可以加@@@LINK跳轉。(mdx下面的詞頭，在漢語大字典查簡化字只提出那個）

Quantus · 2021 年5 月 18 日 00:47

求私信呀[捂脸]，我之前也在做这个词典的文字版，但是被楼主给抢先了。

碧落黄泉 · 2021 年5 月 18 日 01:38

感谢分享这个网站

endnote · 2021 年5 月 19 日 12:03

制作完美的mdx，ocr仅仅是10%的工作量，其中大半还是扫描的贡献，因为ocr有软件自动化。

ad困困 · 2021 年6 月 1 日 02:01

改的不错好看啊，之前字体还存在笔画断档的情况感觉很难看呢
看来之前字体可以删除了

MeigenChou · 2021 年6 月 2 日 06:12

虽然删文件是个人自由，不过这句话发出来就有「诱导他人跟着删除」的嫌疑。这本字典并不是所有字符都收录在Unicode中，如前文所说，私有区部分仍有十几个字符没找到Unicode码，包括一个城墙的符号；

比如查询世、邦、韧、巳、麹、搢、操、望、淫、珊、窑、缙的异体字等，都在私有区

有的虽然找到Unicode编码但是使用其他字体显示会有字形差别，比如秋的异体字（目前可能只有方正-超大字符集系列的字体能够准确显示）。说实话新华APP自带的那两枚字体，衬线的（song.ttf）和非衬线的（hei.ttf）显示效果都不是特别好，但起码字形是准确的，不会误导人。总之可以寻找其他替代字体作为优先显示，但前提是要显示准确，不提倡过河拆桥，找到新字体了就把原来的字体踢掉：

反正

我是不敢苟同

hua · 2021 年6 月 2 日 06:19

中日韩字体问题太复杂了呀，

MinghuaHan · 2021 年6 月 2 日 07:00

的确比初版时好很多了，我用的时候有疑问时还要看下PDF档！

MeigenChou · 2021 年6 月 2 日 07:21

觉得好，以及时常对比pdf，那就没问题了呀，之前用我的数据去对比APP的数据，也是要参照原书的，顺便因此发现了APP的一大堆错误；
上面说的只是针对字体问题，因为css排版样式只是个人喜好，用户喜欢哪个就用哪个，但对于字体引用我是保留意见的，只要去掉了那个字体，就是不完美的…

endnote · 2021 年6 月 2 日 07:33

楼主可能误会你说的是那个新改css。

可参考看看有没有合适的

中文字典的排版人员有时候在现有字库中也找不到某个生僻字，于是生造出来一个私有编码的汉字。
其实我觉得还不如直接插入图片，反正也无法搜索，先图片然后通过专业异体字字典查找有无合适的。

像新华字典这种非专业性字典，我会优先考虑兼容性。个人观点供参考。

MinghuaHan · 2021 年6 月 2 日 07:34

也可以做成切图版！

endnote · 2021 年6 月 2 日 07:41

切图版不能搜索，但是准确。我这种非专业人士更喜欢文字版