求助《三礼辞典》

xiaonanhai1982 · 2023 年9 月 29 日 07:08

引号是抓取软件自动叫上去的，可以去掉，我当时就是直接把数据做成了mdx，没有任何的加工，兄台尽管动刀好了

shaoshi · 2023 年9 月 30 日 08:35

刚开始看文本，质量不错，但有几百个乱码：

勺
(一) 挹酒之器。容一
升，以木製之，亦有青銅製
者。《儀禮·士冠禮》： “一甒
醴，在服北，有篚，實勺、觶、
角柶。”鄭玄注：“勺，尊斗，所
以��酒也。” 按“斗”，當作
“抖”。抖，��水之器。勺以��
酒，故云尊抖。

我想先把这些“��”补起来，但是不是一时三刻弄得完的。

这个好像也不对：

按“斗”，當作“抖”。抖，……故云尊抖。

三个“抖”字，应该都是“枓”吧。看来还得加校记。一加校记，就更费时费力了。

alexpeng · 2023 年9 月 30 日 13:35

恐怕得逐个核对原文了。

shaoshi · 2023 年9 月 30 日 13:38

没什么好方法，确实是一个一个对。还好有图像版的mdx，自己做了mdd，对起来会快一点。

对一下也有好处，附带校正了错字：

布
《說文·巾部》：
“布，枲織也。”段玉裁注：“其
艸曰枲，曰葩，析其皮曰𣏟，
曰𣎳

𣏟本来错了。图像版是对的。看来做这个电子版的人虽然认真，但不够细心。

另外发现有私用区字，也得设法改掉。

shaoshi · 2023 年10 月 2 日 05:52

“弓”条的下半部((二))被切掉，误入“弓人”条，“弓人”条资料消失。“弓”的下半部((二))又误入“弓之六材”，“弓之六材”条资料消失。

大概是处理程式没预算到(二)而惹出来的麻烦。

“旗”的下半部((二))被切掉，误入“旗物”，“旗物”资料消失。

“鎛”的下半部((二))被切掉，误入“鎛師”，“鎛師”资料消失。

“䍷羊”的下半部((二))被切掉，下落不明。

“鸞車”的下半部((二))被切掉，下落不明。

检索“(一)”，有367条，有的是“詳中(一)”这类，没关系。但是内容中有“(一)”的，”(二)“似乎都被切掉了。看来这个数据被摧残得惨不忍睹。

检索文本，只有二十几个(二)，合理推断，有几百个”(二)“的数据灰飞烟灭了。

我本来补完了几百个缺字，想动手做了，发现这个情况后心就凉了一大半。

有人想接下去做吗？

shaoshi · 2023 年10 月 4 日 11:37

我猜测这是反爬程式造成的。当一个词条有(一)(二)两部分时，把(二)延迟送出来，接上了下一条的话，就会把下一条的数据用(二)代替；没接上的话，(二)就不见了。

假如在两个数据请求之间加延迟，也许可以解决这个问题。

参看：

xiaonanhai1982 · 2023 年10 月 5 日 05:45

我目前没有知网的账号，有的朋友可以上去帮忙看一下

shaoshi · 2023 年10 月 5 日 05:48

我也没有知网账号，只是偶尔去知网查点不付费资料，只能看到词头和开头一两句。

这书我看了一点，觉得还不错，可惜没抓全，缺的数据太多。

shaoshi · 2024 年10 月 14 日 02:04