论坛下载的那本《新华字典》第12版268页,希望哪位大神能补上图片。
感谢jcz777兄补上缺页。
Aaron兄说的是下列链接,268页是468页的重出。棒棒2000兄的数据也缺了268页。
jcz777兄下载的不知是哪个链接的pdf?
新华字典12版pdf(很清晰)
https://downloads.freemdict.com/词典pdf/
我用cajviewer、adobe reader、foxit重看了下列这个文件,第268页确实显示为468页。兄台用的不知是什么阅读器?难道这个pdf有古怪?
《新华字典(第12版)》.pdf 19-May–2021 23:19 320778656 B / 305.92 MB / File Hash
https://downloads.freemdict.com/词典pdf/
我的下载自
棒棒2000
文件: G:\BaiduNetdiskDownload\新华字典 12版(excel文本)\新华字典 第12版(文本配套图像).pdf
大小: 166270085 字节
MD5: BAB04413597A4C6998F9B58B00AFE4A9
SHA1: B76EB471C6893BFAEB4867C0C7723C82500E590F
CRC32: EBF004E8
《新华字典(第12版)》.pdf
Size 320778656 B
MD5 e6b8a8c8ae689538785e961d94400ce0
SHA1 35b9772502dd8343bd863e427b5ec5ad90cbdfef
从MD5看来,这两个文件根本就不同。你下载棒棒兄的看看。
你用的是百度盘的文件,难怪。我无法用百度盘,所以下载的是本坛的pdf。
棒棒兄的版本既然无缺页,不知为何会缺这页的数据?
但是既然有图像,要补全数据就不难。
从所补的这一页看,本坛的版本比较清晰。
不都是PDF大就清晰。
还有,本坛的是“双色本”却被扫成了“黑白”的 ![]()
谢谢。图片清晰。
对比了下页面大小
论坛的78.3110.2mm
棒棒兄的93.9144.6mm
看来还是棒棒兄的清晰啊
原来如此。我只看finereader打开图像后显示的dpi,没比对页面大小,弄错了。
图文合璧的m-dict版出来了:
新华字典12图文版 (jcz777制作)
我来个高清版吧 从新华字典app一页一页提取出来的,额 比较难破,我是一页页翻自动然后写出文字的,算法干不动,这个是一两年前我自己手动整出来的;
路径形如 https://img.shangdi.haidii.com/image/21003/29ada94d/f9782cc94/v12xhb141.png
起因是我想裁剪字体;
可惜的是我没能把新华字典的所有文字整出来;
我想找到可靠的所有文字 然后和通用规范汉字表 比较,裁剪出我需要的字体里的文字;
话说国内所谓商业免费的字体太抠门了,必须附带完整的字体,那么大一个东西,谁爱用;
另外测试了一下各家 AI 识别的效果不大好啊(GPT Gemini 豆瓣 千问 deepseek),比如𠃌⺄ 就识别不出来
新华字典太抠了,都不舍得把所有的文字公开了;感觉文字应该是公益性的吧;
各大AI 太他妈抠了
文件150MB 我没有进一步压缩;
哪位方便可以上传其他云存储
很抱歉 这个是小号
已转存到了度盘。希望有人也传至本坛的云存储
额 在chatgpt的帮助下 提取出来了所有字,从词库里。OCR根本不现实啊
但是 这个出版社太他妈垃圾恶心人了
某些字用的是私有区 ,比如鿬这个字
当然 我不一定对哈
这个是提取出来渲染的私有区的字 不知道有没有大佬可以整理?我懒
xhzd_pua_render_bundle.zip (810.9 KB)
xhzd_classification_bundle.zip (488.6 KB)
就这么多吧。


