新华字典12-[结项]20220917

楼主的确辛苦更改!我是有12版的PDF,不敢放出啊 :joy:!如何文字识别就没有这么辛苦!

1 Like

新华字典 12

来源HQ ICON

6 Likes

请问楼主,原来那个hei_xhzd.ttf的字体文件,还有用吗?要不要删掉?

1 Like

你可以悄咪咪的放出

之前网上流传的第10版文字版大概就是OCR,里面的错误比我手动校对的多。也有人做过10版的mdx,错误照旧,反正我是不敢用

1 Like

是用来显示生僻字的

商务或者别的出版社喜欢把一些生僻字放在私有区,有的早已经收录进Unicode却不用,结果普通的电脑或手机都显示不了

我沒研究過,只隨便瞧了詞頭,印象是私有区的字大概兩三十個吧。是不是打算都改成Unicode?
私有区代碼,除了顯示問題(要依賴某個TTF),主要副作用是不能跟別的字典通用,等於是斷了 union dictionary 的關係和功能。

《大辭海》MDX,數據來自商業網站,有一堆詞頭,幾百個好像,等於是亂碼 – 主要問題是“類推”的簡體字,很多是沒有Unicode,麻煩。莫名其妙的是,這種“類推”的簡化字只簡化了偏旁,聲符一般不變,本來就沒必要簡化。

2 Likes

应该是把发现有Unicode编码的都改回去了,剩下的要么Unicode没收录要么我没找到编码。对于类推简化字,如果实在Unicode没收录以及没有对应的字体显示,一般都是直接用繁体的

4 Likes

“𰷥(賨)”的一個異體字是“賩”,可以加@@@LINK跳轉。(mdx下面的詞頭,在 漢語大字典 查簡化字 只提出那個)

2 Likes

求私信呀[捂脸],我之前也在做这个词典的文字版,但是被楼主给抢先了。

4 Likes

感谢分享这个网站

4 Likes

制作完美的mdx,ocr仅仅是10%的工作量,其中大半还是扫描的贡献,因为ocr有软件自动化。

1 Like

改的不错好看啊,之前字体还存在笔画断档的情况感觉很难看呢
看来之前字体可以删除了

2 Likes

虽然删文件是个人自由,不过这句话发出来就有「诱导他人跟着删除」的嫌疑。这本字典并不是所有字符都收录在Unicode中,如前文所说,私有区部分仍有十几个字符没找到Unicode码,包括一个城墙的符号;

比如查询世、邦、韧、巳、麹、搢、操、望、淫、珊、窑、缙的异体字等,都在私有区

有的虽然找到Unicode编码但是使用其他字体显示会有字形差别,比如秋的异体字(目前可能只有方正-超大字符集系列的字体能够准确显示)。说实话新华APP自带的那两枚字体,衬线的(song.ttf)和非衬线的(hei.ttf)显示效果都不是特别好,但起码字形是准确的,不会误导人。总之可以寻找其他替代字体作为优先显示,但前提是要显示准确,不提倡过河拆桥,找到新字体了就把原来的字体踢掉:

反正

我是不敢苟同

3 Likes

中日韩字体问题太复杂了呀,

1 Like

的确比初版时好很多了,我用的时候有疑问时还要看下PDF档!

2 Likes

觉得好,以及时常对比pdf,那就没问题了呀,之前用我的数据去对比APP的数据,也是要参照原书的,顺便因此发现了APP的一大堆错误;
上面说的只是针对字体问题,因为css排版样式只是个人喜好,用户喜欢哪个就用哪个,但对于字体引用我是保留意见的,只要去掉了那个字体,就是不完美的…

楼主可能误会你说的是那个新改css。

可参考看看有没有合适的

中文字典的排版人员有时候在现有字库中也找不到某个生僻字,于是生造出来一个私有编码的汉字。
其实我觉得还不如直接插入图片,反正也无法搜索,先图片然后通过专业异体字字典查找有无合适的。

像新华字典这种非专业性字典,我会优先考虑兼容性。个人观点供参考。

1 Like

也可以做成切图版!

切图版不能搜索,但是准确。我这种非专业人士更喜欢文字版