引号是抓取软件自动叫上去的,可以去掉,我当时就是直接把数据做成了mdx,没有任何的加工,兄台尽管动刀好了
刚开始看文本,质量不错,但有几百个乱码:
勺
(一) 挹酒之器。容一
升,以木製之,亦有青銅製
者。《儀禮·士冠禮》: “一甒
醴,在服北,有篚,實勺、觶、
角柶。”鄭玄注:“勺,尊斗,所
以��酒也。” 按“斗”, 當作
“抖”。抖,��水之器。 勺以��
酒,故云尊抖。
我想先把这些“��”补起来,但是不是一时三刻弄得完的。
这个好像也不对:
按“斗”, 當作“抖”。抖,……故云尊抖。
三个“抖”字,应该都是“枓”吧。看来还得加校记。一加校记,就更费时费力了。
没什么好方法,确实是一个一个对。还好有图像版的mdx,自己做了mdd,对起来会快一点。
对一下也有好处,附带校正了错字:
布
《說文·巾部》:
“布,枲織也。”段玉裁注:“其
艸曰枲,曰葩,析其皮曰𣏟,
曰𣎳
𣏟本来错了。图像版是对的。看来做这个电子版的人虽然认真,但不够细心。
另外发现有私用区字,也得设法改掉。
“弓”条的下半部((二))被切掉,误入“弓人”条,“弓人”条资料消失。“弓”的下半部((二))又误入“弓之六材”,“弓之六材”条资料消失。
大概是处理程式没预算到(二)而惹出来的麻烦。
“旗”的下半部((二))被切掉,误入“旗物”,“旗物”资料消失。
“鎛”的下半部((二))被切掉,误入“鎛師”,“鎛師”资料消失。
“䍷羊”的下半部((二))被切掉,下落不明。
“鸞車”的下半部((二))被切掉,下落不明。
检索“(一)”,有367条,有的是“詳中(一)”这类,没关系。但是内容中有“(一)”的,”(二)“似乎都被切掉了。看来这个数据被摧残得惨不忍睹。
检索文本,只有二十几个(二),合理推断,有几百个”(二)“的数据灰飞烟灭了。
我本来补完了几百个缺字,想动手做了,发现这个情况后心就凉了一大半。
有人想接下去做吗?
我猜测这是反爬程式造成的。当一个词条有(一)(二)两部分时,把(二)延迟送出来,接上了下一条的话,就会把下一条的数据用(二)代替;没接上的话,(二)就不见了。
假如在两个数据请求之间加延迟,也许可以解决这个问题。
参看:
我目前没有知网的账号,有的朋友可以上去帮忙看一下
我也没有知网账号,只是偶尔去知网查点不付费资料,只能看到词头和开头一两句。
这书我看了一点,觉得还不错,可惜没抓全,缺的数据太多。