《汉语大词典》施工现场11.2

一、汉语大词典[复刻]

目前做的工作:

  1. 梳理2.0新增的词头。
  2. 对比大字典的字头,补录大字典失收字。

二、汉语大词典[方正]

数据由 @sxingbai 提供。

目前做的工作:

  1. 修正了词头中的图片字、全部pua。
  2. 修正问题词头。

方正的数据内容更多,问题也更多,主要介绍几个大的方面:

  1. 对比词头发现,2.0的离谱错误基本都是来自方正,词头各种异体字、简化字、旧字形乱用,如「晚晩」、「德徳」、「虚虛」、「緒緖」、「貌貎」、「笻筇」。详见「问题词头.txt」。
    “這蚤晚”与“這蚤晩”相同吗?
    2.0应该是抓取过方正的数据,并将多的词头订入其中。
  2. 书证排列混乱。
    汉语大词典光盘版2.0的资料错乱
  3. 重复的字符,引号、逗号、句号,甚至汉字,都可能代表某个字不能打出来,重复了前面的字符。
  4. 有乱码,不过影响范围较小。

三、图像

  1. 字,提取自原图像版,合并方正的单字。
  1. 词,来自hydcd-word.txt。

hydcd-word原文件是日标汉字,对于不能打出来的汉字替换为常用字,所以问题不少。开放编辑权限,发现问题可以直接修改。

四、汉语大词典订补

订正部分错字。

五、共同修订

提取自方正的 img 和 ■ ,每个文件100行,在「申领信息」中接龙即可,接龙序号对应文件序号。

img 下载后,点击网址即可看到图片字。img 的格式为

<img.*>\t字

tab已加入,直接在行末追加汉字即可。

提取各卷检字表,合并为《汉语大词典分卷检字表》,见「图像」。同时将图像字头分为12份,可申领补齐字头。

如无人参与,本帖终结。

15 个赞

赞楼主,大工程!期待能顺利竣工。

8 个赞

接龙,我做第二部分,再接正文3。
■正文_2已修订.txt (108.0 KB)
文件。MD文档无法编辑。
2022.11.03,正文2已修订完成。

4 个赞

我把文件单独分享出来,你点击上方的链接再试试

7 个赞

我也想参加,然鹅打开第一个链接很长时间都看不见文件列表。一叹。

3 个赞

周末我看看能提供怎样的技术支持。

5 个赞

巨大工程,希望楼主成功!

楼主组织分包是一方面,另一方面个人建议搭建个“类似TIO + 边用边反馈错误”的系统

1 个赞

刚想发贴问一下哪个数据比较可靠就看到这个帖子了,期待一下。

2 个赞

提取各卷检字表,合并为《汉语大词典分卷检字表》,见「图像」。
同时将图像字头分为12份,可申领补齐字头。

1 个赞

现在是要朝哪方面努力啊,想出点力却又不知道怎么个下手法 :joy:哥儿有没有手把手修订截图演示“教学” :joy:

2 个赞

昨晚链接打开了,img_2我领了 :smile:

2 个赞

那我接着做正文3。

5 个赞

任务较多,建议分步进行。因为参与的人并不多,如果任务再不集中,很难看到成效,也就容易让人失去动力。

3 个赞

暂时申领三个任务即可。

1 个赞

收到,已归档。

1 个赞

哦哦,那好吧。

1 个赞

img正文_2.txt (14.1 KB)

有3 个字实在认不出来 :sweat_smile:
HTTP://202.106.125.14:8000/ApaDownLoadRef/m.20080419-m300-w001-035/images/Image1/m.20080419-m300-w001-035000105.gif

HTTP://202.106.125.14:8000/ApaDownLoadRef/m.20080419-m300-w001-035/images/Image1/m.20080419-m300-w001-035000177.gif

HTTP://202.106.125.14:8000/ApaDownLoadRef/m.20080419-m300-w001-035/images/Image1/m.20080419-m300-w001-035000197.gif

另,方正199MB TXT下载求助,哪位仁兄能用国内网盘分享一下。先谢谢了!
不知道为什么这个文本文件我这里只能单线程下载,试了好几次,速度都只有3,5KB :frowning:

2 个赞

链接: https://pan.baidu.com/s/13Xz77QB_RAj_HXLmArXiKQ?pwd=bp7c 提取码: bp7c
是「𩰁𤄾䥶」,确实非要对照图像才行

3 个赞

m.20080419-m300-w001-035000115.gif"/>》:「〔{穆王}〕乎乎于大池。」
乎乎→乎𣺆

年丈:《聊斋志异·续黄粱》在前。


又做了一份 :smile:
img正文_3.txt (14.1 KB)

2 个赞

感谢sxingbai兄提供原始数据,感谢feiwu兄初步整理并上载。

我现在开始在弄这个资料。因为我需要的资料格式不同,整理的方法也不同,所以另辟蹊径前进了。

我的看法是,知网和方正的资料都源于光盘,所以“爱手反裘”都错了。知网的数据大概没改,方正改得多,但主要是增补资料和改错字,不是按照图像版重做。

2.0光盘版mdx增补的资料主要大概来自方正和《订补》,用了一点光盘3.0。但是2.0光盘版没有完全吸收方正的增补资料,毕竟这书太大,资料没有人能看完,没看到当然就无法改。

我本来只想补了词头,导入资料库,不管方正的图片字。

但是后来发现:图片字有时是常见字如“乞”,这是作资料保护用的,可以直接替换。

图片字假如是偏僻字,就有可能是光盘2.0版mdx漏收的,这刚好可以作为线索,查一下是否可以补进mdx。

所以,我的整理方法是把方正版和光盘2.0版mdx对着改,有时可以用后者补前者,有时二者一起改。

6 个赞