求助《三礼辞典》

引号是抓取软件自动叫上去的,可以去掉,我当时就是直接把数据做成了mdx,没有任何的加工,兄台尽管动刀好了

刚开始看文本,质量不错,但有几百个乱码:


(一) 挹酒之器。容一
升,以木製之,亦有青銅製
者。《儀禮·士冠禮》: “一甒
醴,在服北,有篚,實勺、觶、
角柶。”鄭玄注:“勺,尊斗,所
以��酒也。” 按“斗”, 當作
“抖”。抖,��水之器。 勺以��
酒,故云尊抖。

我想先把这些“��”补起来,但是不是一时三刻弄得完的。

这个好像也不对:

按“斗”, 當作“抖”。抖,……故云尊抖。

三个“抖”字,应该都是“枓”吧。看来还得加校记。一加校记,就更费时费力了。

1 个赞

恐怕得逐个核对原文了。

没什么好方法,确实是一个一个对。还好有图像版的mdx,自己做了mdd,对起来会快一点。

对一下也有好处,附带校正了错字:


《說文·巾部》:
“布,枲織也。”段玉裁注:“其
艸曰枲,曰葩,析其皮曰𣏟,
曰𣎳

𣏟本来错了。图像版是对的。看来做这个电子版的人虽然认真,但不够细心。

另外发现有私用区字,也得设法改掉。

2 个赞

“弓”条的下半部((二))被切掉,误入“弓人”条,“弓人”条资料消失。“弓”的下半部((二))又误入“弓之六材”,“弓之六材”条资料消失。

大概是处理程式没预算到(二)而惹出来的麻烦。

“旗”的下半部((二))被切掉,误入“旗物”,“旗物”资料消失。

“鎛”的下半部((二))被切掉,误入“鎛師”,“鎛師”资料消失。

“䍷羊”的下半部((二))被切掉,下落不明。

“鸞車”的下半部((二))被切掉,下落不明。

检索“(一)”,有367条,有的是“詳中(一)”这类,没关系。但是内容中有“(一)”的,”(二)“似乎都被切掉了。看来这个数据被摧残得惨不忍睹。

检索文本,只有二十几个(二),合理推断,有几百个”(二)“的数据灰飞烟灭了。

我本来补完了几百个缺字,想动手做了,发现这个情况后心就凉了一大半。

有人想接下去做吗?

1 个赞

我猜测这是反爬程式造成的。当一个词条有(一)(二)两部分时,把(二)延迟送出来,接上了下一条的话,就会把下一条的数据用(二)代替;没接上的话,(二)就不见了。

假如在两个数据请求之间加延迟,也许可以解决这个问题。

参看:

加延时

我目前没有知网的账号,有的朋友可以上去帮忙看一下

我也没有知网账号,只是偶尔去知网查点不付费资料,只能看到词头和开头一两句。

这书我看了一点,觉得还不错,可惜没抓全,缺的数据太多。