feiwu
1
一、汉语大词典[复刻]
目前做的工作:
- 梳理2.0新增的词头。
- 对比大字典的字头,补录大字典失收字。
二、汉语大词典[方正]
数据由 @sxingbai 提供。
目前做的工作:
- 修正了词头中的图片字、全部pua。
- 修正问题词头。
方正的数据内容更多,问题也更多,主要介绍几个大的方面:
- 对比词头发现,2.0的离谱错误基本都是来自方正,词头各种异体字、简化字、旧字形乱用,如「晚晩」、「德徳」、「虚虛」、「緒緖」、「貌貎」、「笻筇」。详见「问题词头.txt」。
“這蚤晚”与“這蚤晩”相同吗?
2.0应该是抓取过方正的数据,并将多的词头订入其中。
- 书证排列混乱。
汉语大词典光盘版2.0的资料错乱
- 重复的字符,引号、逗号、句号,甚至汉字,都可能代表某个字不能打出来,重复了前面的字符。
- 有乱码,不过影响范围较小。
三、图像
- 字,提取自原图像版,合并方正的单字。
- 词,来自hydcd-word.txt。
hydcd-word原文件是日标汉字,对于不能打出来的汉字替换为常用字,所以问题不少。开放编辑权限,发现问题可以直接修改。
四、汉语大词典订补
订正部分错字。
五、共同修订
提取自方正的 img 和 ■ ,每个文件100行,在「申领信息」中接龙即可,接龙序号对应文件序号。
img 下载后,点击网址即可看到图片字。img 的格式为
<img.*>\t字
tab已加入,直接在行末追加汉字即可。
提取各卷检字表,合并为《汉语大词典分卷检字表》,见「图像」。同时将图像字头分为12份,可申领补齐字头。
如无人参与,本帖终结。
15 个赞
独行瞏瞏
3
接龙,我做第二部分,再接正文3。
■正文_2已修订.txt (108.0 KB)
文件。MD文档无法编辑。
2022.11.03,正文2已修订完成。
4 个赞
我也想参加,然鹅打开第一个链接很长时间都看不见文件列表。一叹。
3 个赞
巨大工程,希望楼主成功!
楼主组织分包是一方面,另一方面个人建议搭建个“类似TIO + 边用边反馈错误”的系统
1 个赞
刚想发贴问一下哪个数据比较可靠就看到这个帖子了,期待一下。
2 个赞
feiwu
9
提取各卷检字表,合并为《汉语大词典分卷检字表》,见「图像」。
同时将图像字头分为12份,可申领补齐字头。
1 个赞
将作大匠
10
现在是要朝哪方面努力啊,想出点力却又不知道怎么个下手法 哥儿有没有手把手修订截图演示“教学”
2 个赞
任务较多,建议分步进行。因为参与的人并不多,如果任务再不集中,很难看到成效,也就容易让人失去动力。
3 个赞
feiwu
18
3 个赞
m.20080419-m300-w001-035000115.gif"/>》:「〔{穆王}〕乎乎于大池。」
乎乎→乎𣺆
年丈:《聊斋志异·续黄粱》在前。
又做了一份
img正文_3.txt (14.1 KB)
2 个赞
感谢sxingbai兄提供原始数据,感谢feiwu兄初步整理并上载。
我现在开始在弄这个资料。因为我需要的资料格式不同,整理的方法也不同,所以另辟蹊径前进了。
我的看法是,知网和方正的资料都源于光盘,所以“爱手反裘”都错了。知网的数据大概没改,方正改得多,但主要是增补资料和改错字,不是按照图像版重做。
2.0光盘版mdx增补的资料主要大概来自方正和《订补》,用了一点光盘3.0。但是2.0光盘版没有完全吸收方正的增补资料,毕竟这书太大,资料没有人能看完,没看到当然就无法改。
我本来只想补了词头,导入资料库,不管方正的图片字。
但是后来发现:图片字有时是常见字如“乞”,这是作资料保护用的,可以直接替换。
图片字假如是偏僻字,就有可能是光盘2.0版mdx漏收的,这刚好可以作为线索,查一下是否可以补进mdx。
所以,我的整理方法是把方正版和光盘2.0版mdx对着改,有时可以用后者补前者,有时二者一起改。
6 个赞