(人工添加页码)新华字典 12版 文本excel数据分享

补了268页的数据。参考jcz777兄的校记,补了所缺的字头。

缺标记我不管,字级和笔画不管。

想要在Access中整一个字头索引了,再检查一下,发现还缺第258页的字。

细看后发现:数据应该没缺,是257页“咖”字以下,258页“锎”字以下的页码错了。

增补了棒棒兄的数据,导入Access,现在把Access格式的数据上载于此,供大家参考。

有9446条数据。大致说一下格式:

Id 编号
Zi 原来的字头
Pg 页码
Pg2 同页中字序,左栏第1条,等等。
Jieshi 词典解释
Zi2 原来的字头去掉括号内的异体字,只留一个字头,在前面加上U+X(Unicode)。

我不需要笔画和字级的资料,所以没收,需要的可以看棒棒兄的原数据,或者查MeigenChou的mdx。

xinhua.rar (668.2 KB)

1 个赞

有错误。

你这个表,好多拼音出错啊。我这里有300多个字,和你的表对不上。
还有字头缺失啊,比如 被
对不上的(拼音错或者缺字条).txt (6.1 KB)

1 个赞

图片版已经弄出来的。PDF转PNG,清晰度还行。MdxBuilder3.0打包了。
随便整了个mdx文件试试。
只是简单做了一下
目的是为了测试图片打包后的MDD文件正确
结束。
页码添加完毕,后面300条只配对到页码,没有左右栏位置。

链接:https://pan.baidu.com/s/1Vq0pvBa4OFcF7OI75mgRsw?pwd=qk8y
提取码:qk8y

这样呀,那我有空人工再校对一次。我当时是做得太快了,可能粗心了。感谢指正。

棒棒兄这个资料很棒。虽然有一些错误,在大家陆续完善后,已经比较可靠实用。

我看不到百度盘的资料,单凭本帖百度盘之外的资料,整理了一下。把字头及页码的校记列出来:

第7页左栏掉了“澳”字。
第12页左栏掉了“攽”字,“颁”字重出。
第20页左栏掉了“被”字。
“奔奔”当作“奔”
第25页左栏“筚”字字头误作“荜”,掉了“跸”字。
第26页左栏“敝”字误作“敞”。
第28页右栏“𨚕”(U+28695)字作“”(U+E0A1),非Unicode正字。
第30页左栏掉了“藨”字。
第36页右栏“亳”字误作“毫”。
第37页右栏掉了“晡”字。
第39页右栏“簿”字误作“薄”。
第46页右栏掉了“檫”字。
第54页右栏掉了“瞋”字。
第62页右栏“憧”字误作“懂”。
第65页左栏掉了“樗”字。
第68页右栏“椽”字误作“橡”。
第93页左栏掉了“蹬”字。右栏“蹬”字解释错误。
第101页右栏“咥”出现乱码,误作“蜥・”字。
第113页左栏掉了“镦”、“蹾”字。
第115页左栏掉了“哚”字。
第120页右栏掉了“朏”字。
第128页右栏掉了“二”字。
第136页左栏掉了“拂”字。
第159页右栏掉了“媾”字。
第163页左栏掉了“榖”字。
第168页左栏掉了“瓘”字。
第188页右栏掉了“篌”字。
第191页左栏掉了“煳”字。“鹕(鶘)”当作“煳”,下条“鹕”当改为“鹕(鶘)”。
第207页右栏“叽(嘰)”字解释误。
第212页右栏掉了“踖”字。
第248页左栏掉了“裾”字。
第260页右栏掉了“扛”字。
第279页右栏第三字“蓝”当作“篮”,解释亦误。
第289页右栏第三字“沣(灃)”当作“澧”,解释亦误。
第290页右栏第二字“历”当作“疠”,解释亦误。
第299页左栏掉了“寥”字。
第300页左栏“脬”字当作“脟”。
第305页左栏“裬”(衤夌)字当作“祾”(礻夌)。
第312页左栏“炉”字当作“𬬻”,解释亦误。
第329页右栏掉了“鄚”字。
第333页右栏“鹴(鸘)”字当作“鹲(鸏)”,解释亦误。
第335页右栏掉了“靡”字。
第338页左栏掉了“眄”字。
第342页左栏第6条“缪”字当作“谬”。
第349页左栏“吶”字当作“呐”。
第362页右栏掉了“娜”字。
第375页左栏“㘩”字当作“仳”。
第388页右栏“”(U+E1BD)字当作“𤪌”(U+24A8C)。另外掉了“麒”字。
第405页右栏“卭”字当作“邛”,“笻”字当作“筇”。
第409页左栏掉了“朐”字。
第412页右栏“劵”字当作“券”。
第486页右栏“烶”字当作“𬘩”,解释亦误。
第520页右栏“葸”字当作“𠅤”,解释亦误。
第545页左栏掉了“盱”字,左栏“媭(嬃)”须移到右栏,重新调整右栏各字的字序。
第550页左栏“眩”字解释误。
第550页左栏掉了“铉”字。
第550页右栏掉了“薛”字。
第558页左栏掉了“筵”字。
第560页右栏掉了“郾”字。
第567页右栏掉了“药”字。
第571页右栏“袆”字当作“祎”,解释亦误。
第577页左栏“裔”字当作“羿”,解释亦误。
第613页左栏掉了“笮”字。
第625页左栏掉了“蜇”字。
第627页左栏掉了“桢”字。
第634页左栏“烶”字当作“𬘩”,解释亦误。
第657页左栏“姿”字当作“恣”。

1 个赞

我觉得校对词典实在是苦活,能有一个比较准确的词头索引,可以用来查图像,已经很棒了。

我最后整理的词头索引有9485条。

字与词勾勒中国——《新华字典》12版这样修订
光明日报,2020-10-03
从《新华字典》1953年版本收单字6840个(含异体字),到12版收13000字,收字数增加了将近一倍,其中规范字头9460个。
http://www.xinhuanet.com/local/2020-10/03/c_1126570743.htm

这个词头索引可能仍然掉了一些字,有兴趣的书友可以继续增补。

在此分享我的词头索引,excel格式。

棒棒兄的资料本来有很多line break,对数据处理会制造一些麻烦,我用Excel公式去除了line break:

=SUBSTITUTE(A2,CHAR(10),“”)

新华字典索引(2022年1月29日更新)
新华字典索引.rar (185.1 KB)

1 个赞

谢谢兄台校对

图文发声版
20200204更新
1,换了一份语音。男声,感觉比女声好。
2,修改了几个上标问题。

感觉没必要再改了。就这样吧。

20220130更新
1,〇[U+3007] 增加异体字 ○[U+25CB],仅为 链接。
2,添加拼音索引
3,添加部首检字,采用康熙214部首。
4,另见X字,添加跳转链接。
5,私有区字符显示支持:new.woff、new_ext_bcde.woff。特别是new_ext_bcde.woff,我搬运了400+私有区字符,都放在这个字体。
实测MDICT可以显示全部字头。
6,添加单字跳转,方便检索。对于多音字,只会跳到某个音。
7,



网盘:(https://cloud.freemdict.com/index.php/s/9E537w3faywLJFJ)
百度网盘
提取码:qk8y

字条文字内容取自

添加了图片和声音。制作比较简陋,可能存在部分页码错误。

2 个赞
字条 页码
哚duǒ 113 115
卡kǎ 256 257
佧kǎ 256 257
裾jū 248
抗kàng 重复 260
P256
咖kā P256 P257
喀kā P256 P257
擖kā P256 P257

我认为到页码就可以了,无需具体到某栏第几字。
多看一眼也是可以找到的。
我需要的效果大概就是这样


感兴趣去翻上面30楼,我的网盘链接。

另,下面两个附件中
kā 咖 P256 P257
kā 喀 P256 P257
kā 擖 P256 P257
这三个页码都是错的,正确是257页。
字拼音字头页码(含繁异体)计13812字.7z (51.9 KB)

[字头页码对应表(根据shaoshi资料作了校正)20220127.7z|attachment][(upload://DyMBYGy4Z9rfwCaAQEUzHJZcXJ.7z) (63.2 KB)

2 个赞

我下载了你的20200204更新版:
请教一下,为什么我的显示与你的不一样?是需要装什么字体吗?

少了样式和字体。已补上。
上次整理的时候删除了,忘记了传新的文件。

没有换成男声,仍然是女声。

1 个赞

@medp7060
看到了。随便改一下。

1,语音包独立出来了。男声、男女声各一份,需要的话可以改文件名启用。也可以用在别的词典。
2,图片默认隐藏。可以通过点击▼切换图片显示/隐藏。

百度网盘
提取码:qk8y

3 个赞

手机上也显示完美了,大赞!顺便问一下,文字部分是用的哪一个版本?

2 个赞

笔画被隐藏了,另外,拼音显示建议换字体。


如图所示的拼音和纸书一致,显示正确。

2 个赞

cloud 的文件好像过期了?

1 个赞

谢谢了。在Mdict中测试成功!!!!!

但是在GoldenDict下,发音正常,然而发音按钮显示有问题,图片展开按钮不工作: