借着春节假期之便,我新注册了一个汉语辞典总汇网站的账号并充值七天会员,手动抓取了汉语大词典完整的字头清单(分隶于200个部首之下,正体/异体、简体/繁体字计有23402字)以及第一册词目(按十二册旧版部首进行搜录,单音节词不在采集之列),希望有资于本坛辞典发烧友进一步搜罗、加工汉大词条数据。需要指摘出来的是,辞典总汇抓取的词目初步比照原书,有失收之处四处,分别是“丏(丐的讹字)、厩(廄的异体字)、脩(修的异体字)、𠊳(便的古字)”四字附随词目(释义、例证亦告缺如)。就此看来,辞典总汇版的数据也难称得上尽善尽美,但相较于光盘版以及坊间基于光盘版反复“葺补”的版本仍有很大进步了。
汉大部首字表.zip (99.9 KB)
汉大分册1词目.zip (215.1 KB)
4 Likes
可惜我志不在此 手动抓取费时费力,用工勤,收效微,我当下专注于汉大词目、词条数据的罗致
根据反馈过来的信息:汉语辞典总汇抓三到五册的词头就会直接删账号。
那是代码自动爬取的,我是手动一页一页抓取的,要是自动爬取的爬个三五册词头才删账号,那也值了
手动的也可能不行,看访问量的。
试试看吧,我还剩五天的会员,至多抓到第三册
1 Like