【结项】汉语大词典2.0源数据

手动搞了一些,做个示例。

如果没有,那就算了,我自己慢慢搞。

9 个赞

数据本身有瑕疵,而且卷帙浩繁,难办。

建议等明年新版

1 个赞

明年又怎样呢,官方会把源数据放出来吗,新版就不会有瑕疵吗,新版卷帙就轻省吗

3 个赞

我个人的看法是不必从头来过,下面这个就是光盘导出来的:

《汉语大词典》v2.0 原始纯文本

把重复的数据去掉就行。

下面这个主要是光盘的数据上了网,再从网上抓下来的,所以有精细的标签:

汉语大词典光盘版2.0,另附3.0光盤版

不如清理这个汉语大词典光盘版2.0的数据。再弄原始光盘没有意义。

1 个赞

我试过了,效果不好,也可能是我技术不够的原因。笨人笨办法

1 个赞

我已经把标签清理到文本能手动改的地步了。

当然,里边单是拼音就有不计其数的错误,没法彻底改。不过注音并非必需品。

有一个能手动改的版本,边用边改就行。

不是有人发过光盘导出数据?

1 个赞

如果光盘也没有我就无能为力。

我在云盘上传了,上面链接点进去就有。

标签是我加的,4楼那个原始数据,删掉了空格,所以标签找不回来。

2 个赞

你要这个有空格的数据,还有一个办法,就是用汉典离线版的数据。我对比过的,多数词条来自《汉语大词典》光盘。

我觉得真没必要。本坛2.0光盘版的主体应该是某网动员人力加过标签的数据。肯定比较靠谱。

搞完了

6 个赞

厉害,多谢楼主分享。下载地址在一楼。

2 个赞

是重新从光盘提取的?提取技术能不能分享?

复制粘贴……

2 个赞

替换《订补》全部pua。
附《书证探源》。

2 个赞

最近发现《订补》有无法正确显示的字,正想再整理一下《订补》。你的数据正合我意,谢谢。

1 个赞

原数据有一码多字、一字多码的问题。
而且那个来源未知的pdf也有问题。

1
【𡚕】[yōng]「㷏」的讹字。三国吴孙休第四子𠅨的字。五代詹敦仁《复留侯从效问南汉刘岩改名䶮字音义》诗:「孫休命子名,吴國尊王意。𩅦𦯶𩅔𧟨僻,𠅨昷𥨆𡚕異。」
2
【㷏】[yōng]三国吴孙休第四子𠅨的字。《三国志·吴志·孙休传》「戊子,立子𩅦为太子,大赦」裴松之注引《吴录》载孙休诏:「孤今爲四男作名字……次子名𠅨,𠅨音如褒衣下寬大之褒,字㷏,㷏音如有所擁持之擁。」
3
【𥨆】[bāo]「𠅨」的讹字。亦用作人名。三国吴孙休第四子名。五代詹敦仁《复留侯从效问南汉刘岩改名䶮字音义》诗:「孫休命子名,吴國尊王意。𩅦𦯶𩅔𧟨僻,𠅨昷𥨆𡚕異。」
4
【𦯶】[qì]三国吴孙休长子𩅦的字。《三国志·吴志·孙休传》「戊子,立子𩅦爲太子,大赦」裴松之注引《吴录》载孙休诏:「孤今爲四男作名字:太子名𩅦,𩅦音如湖水灣澳之灣,字𦯶,𦯶音如迄今之迄。」五代詹敦仁《复留侯从效问南汉刘岩改名䶮字音义》诗:「孫休命子名,吴國尊王意。𩅦𦯶𩅔𧟨僻,𠅨昷𥨆𡚕異。」
5
【𩅔】[gōng]「𩃙」的讹字。人名用字。三国吴孙休次子名。五代詹敦仁《复留侯从效问南汉刘岩改名龑字音义》诗:「孫休命子名,吴國尊王意。𩅦𦯶𩅔𧟨僻,壾昷𥨆𡚕異。」
6
【壾】[mǎng 《集韵》母朗切,上蕩,明。]
人名用字。三国吴孙休第三子名。《三国志·吴志·孙休传》「戊子,立子𩅦爲太子,大赦」裴松之注引《吴录》载孙休诏:「孤今爲四男作名字:……次子名壾,壾音如草莽之莽,字昷,昷音如舉物之舉。」五代詹敦仁《复留侯从效问南汉刘岩改名䶮字音义》诗:「孫休命子名,吴國尊王意。𩅦𦯶𩅔𧟨僻,壾昷𥨆𡚕異。」

修了一下,重新下载吧。

1 个赞

似乎pua替换里有些字还有问题,比如:
 𠂆【当作“㪷”——斛㪷】
 ⺊【当作“弛”——跅弛】
 ⺆【当作“𫟲”——徐𫟲】

1 个赞

原因见上,我也没办法,只能发现一个改一个。

image
image
image

pdf是在 【PDF】《汉语大词典订补》(文字版) - 其他词典资源区 - Other Dictionaries - 掌上百科 - PDAWIKI - Powered by Discuz!下载的。

已经修改,请重新下载。

3 个赞

楼主辛苦了。