(人工添加页码)新华字典 12版 文本excel数据分享

图片版已经弄出来的。PDF转PNG,清晰度还行。MdxBuilder3.0打包了。
随便整了个mdx文件试试。
只是简单做了一下
目的是为了测试图片打包后的MDD文件正确
结束。
页码添加完毕,后面300条只配对到页码,没有左右栏位置。

链接:百度网盘 请输入提取码
提取码:qk8y

这样呀,那我有空人工再校对一次。我当时是做得太快了,可能粗心了。感谢指正。

棒棒兄这个资料很棒。虽然有一些错误,在大家陆续完善后,已经比较可靠实用。

我看不到百度盘的资料,单凭本帖百度盘之外的资料,整理了一下。把字头及页码的校记列出来:

第7页左栏掉了“澳”字。
第12页左栏掉了“攽”字,“颁”字重出。
第20页左栏掉了“被”字。
“奔奔”当作“奔”
第25页左栏“筚”字字头误作“荜”,掉了“跸”字。
第26页左栏“敝”字误作“敞”。
第28页右栏“𨚕”(U+28695)字作“”(U+E0A1),非Unicode正字。
第30页左栏掉了“藨”字。
第36页右栏“亳”字误作“毫”。
第37页右栏掉了“晡”字。
第39页右栏“簿”字误作“薄”。
第46页右栏掉了“檫”字。
第54页右栏掉了“瞋”字。
第62页右栏“憧”字误作“懂”。
第65页左栏掉了“樗”字。
第68页右栏“椽”字误作“橡”。
第93页左栏掉了“蹬”字。右栏“蹬”字解释错误。
第101页右栏“咥”出现乱码,误作“蜥・”字。
第113页左栏掉了“镦”、“蹾”字。
第115页左栏掉了“哚”字。
第120页右栏掉了“朏”字。
第128页右栏掉了“二”字。
第136页左栏掉了“拂”字。
第159页右栏掉了“媾”字。
第163页左栏掉了“榖”字。
第168页左栏掉了“瓘”字。
第188页右栏掉了“篌”字。
第191页左栏掉了“煳”字。“鹕(鶘)”当作“煳”,下条“鹕”当改为“鹕(鶘)”。
第207页右栏“叽(嘰)”字解释误。
第212页右栏掉了“踖”字。
第248页左栏掉了“裾”字。
第260页右栏掉了“扛”字。
第279页右栏第三字“蓝”当作“篮”,解释亦误。
第289页右栏第三字“沣(灃)”当作“澧”,解释亦误。
第290页右栏第二字“历”当作“疠”,解释亦误。
第299页左栏掉了“寥”字。
第300页左栏“脬”字当作“脟”。
第305页左栏“裬”(衤夌)字当作“祾”(礻夌)。
第312页左栏“炉”字当作“𬬻”,解释亦误。
第329页右栏掉了“鄚”字。
第333页右栏“鹴(鸘)”字当作“鹲(鸏)”,解释亦误。
第335页右栏掉了“靡”字。
第338页左栏掉了“眄”字。
第342页左栏第6条“缪”字当作“谬”。
第349页左栏“吶”字当作“呐”。
第362页右栏掉了“娜”字。
第375页左栏“㘩”字当作“仳”。
第388页右栏“”(U+E1BD)字当作“𤪌”(U+24A8C)。另外掉了“麒”字。
第405页右栏“卭”字当作“邛”,“笻”字当作“筇”。
第409页左栏掉了“朐”字。
第412页右栏“劵”字当作“券”。
第486页右栏“烶”字当作“𬘩”,解释亦误。
第520页右栏“葸”字当作“𠅤”,解释亦误。
第545页左栏掉了“盱”字,左栏“媭(嬃)”须移到右栏,重新调整右栏各字的字序。
第550页左栏“眩”字解释误。
第550页左栏掉了“铉”字。
第550页右栏掉了“薛”字。
第558页左栏掉了“筵”字。
第560页右栏掉了“郾”字。
第567页右栏掉了“药”字。
第571页右栏“袆”字当作“祎”,解释亦误。
第577页左栏“裔”字当作“羿”,解释亦误。
第613页左栏掉了“笮”字。
第625页左栏掉了“蜇”字。
第627页左栏掉了“桢”字。
第634页左栏“烶”字当作“𬘩”,解释亦误。
第657页左栏“姿”字当作“恣”。

1 Like

我觉得校对词典实在是苦活,能有一个比较准确的词头索引,可以用来查图像,已经很棒了。

我最后整理的词头索引有9485条。

字与词勾勒中国——《新华字典》12版这样修订
光明日报,2020-10-03
从《新华字典》1953年版本收单字6840个(含异体字),到12版收13000字,收字数增加了将近一倍,其中规范字头9460个。

这个词头索引可能仍然掉了一些字,有兴趣的书友可以继续增补。

在此分享我的词头索引,excel格式。

棒棒兄的资料本来有很多line break,对数据处理会制造一些麻烦,我用Excel公式去除了line break:

=SUBSTITUTE(A2,CHAR(10),"")

新华字典索引(2022年1月29日更新)
新华字典索引.rar (185.1 KB)

1 Like

谢谢兄台校对

图文发声版
20200204更新
1,换了一份语音。男声,感觉比女声好。
2,修改了几个上标问题。

感觉没必要再改了。就这样吧。

20220130更新
1,〇[U+3007] 增加异体字 ○[U+25CB],仅为 链接。
2,添加拼音索引
3,添加部首检字,采用康熙214部首。
4,另见X字,添加跳转链接。
5,私有区字符显示支持:new.woff、new_ext_bcde.woff。特别是new_ext_bcde.woff,我搬运了400+私有区字符,都放在这个字体。
实测MDICT可以显示全部字头。
6,添加单字跳转,方便检索。对于多音字,只会跳到某个音。
7,



网盘:(FreeMdict Cloud)
百度网盘
提取码:qk8y

字条文字内容取自

添加了图片和声音。制作比较简陋,可能存在部分页码错误。

2 Likes
字条 页码
哚duǒ 113 115
卡kǎ 256 257
佧kǎ 256 257
裾jū 248
抗kàng 重复 260
P256
咖kā P256 P257
喀kā P256 P257
擖kā P256 P257

我认为到页码就可以了,无需具体到某栏第几字。
多看一眼也是可以找到的。
我需要的效果大概就是这样


感兴趣去翻上面30楼,我的网盘链接。

另,下面两个附件中
kā 咖 P256 P257
kā 喀 P256 P257
kā 擖 P256 P257
这三个页码都是错的,正确是257页。
字拼音字头页码(含繁异体)计13812字.7z (51.9 KB)

[字头页码对应表(根据shaoshi资料作了校正)20220127.7z|attachment][(upload://DyMBYGy4Z9rfwCaAQEUzHJZcXJ.7z) (63.2 KB)

2 Likes

我下载了你的20200204更新版:
请教一下,为什么我的显示与你的不一样?是需要装什么字体吗?

少了样式和字体。已补上。
上次整理的时候删除了,忘记了传新的文件。

没有换成男声,仍然是女声。

1 Like

@medp7060
看到了。随便改一下。

1,语音包独立出来了。男声、男女声各一份,需要的话可以改文件名启用。也可以用在别的词典。
2,图片默认隐藏。可以通过点击▼切换图片显示/隐藏。

百度网盘
提取码:qk8y

3 Likes

手机上也显示完美了,大赞!顺便问一下,文字部分是用的哪一个版本?

2 Likes

笔画被隐藏了,另外,拼音显示建议换字体。


如图所示的拼音和纸书一致,显示正确。

2 Likes

cloud 的文件好像过期了?

1 Like

谢谢了。在Mdict中测试成功!!!!!

但是在GoldenDict下,发音正常,然而发音按钮显示有问题,图片展开按钮不工作:

在欧路里也不能显示图片,同#40。
难道是图片格式欧路不支持?

那个发音图标,是样式中加的。GD某些版本的会存在那个问题。我现在用的这个版本GD,正常。你可以换一个版本试试看。或者改样式,直接注释掉。

图片显示问题。图省事,直接搬Mastameta的《说文》(他这个功能在GD也不正常。)。改一下就正常了。

1 Like

您好,目前论坛云网站正在维护,无法正常使用,请问能否补一下百度云链接?

1 Like

不好意思打扰了。坛里有文件。FreeMdict Cloud