《中国大百科全书・中国历史》,1999,制作中。

raw_zgls.mdx (12.0 MB)

开发中,todo_list:

  • 替换内码为Unicode
  • 替换换行
  • 显示章节
  • 排版
  • 梳理图片、链接
  • 校验内容(对照一遍)

已知问题:

  • 有两个词条内存中数据有两份同样的数据。
  • 有两个词条【@1】与【@Y】中含有换行符。
  • 内存数据的提取过宽,导致有乱字符 NUL 等,如果以此为条件,会删掉有的词条。几十卷,若手动修不如等待同好爬在线版的一版了。若修改提取逻辑(如分为实词条和链接词条分别提取、bytes逐码与已有词条对比删除,需要各种验证,有空再玩。
3 Likes

这个试试?

4 Likes

感谢分享 :pray:

1 Like

老兄只举了一个例子。

根据少数例子来做结论,结论未必可信。

像邓小平这种重要的词条,做mdx的人假如根据更新的版本补充了数据,也不是不可能的事。

我自己做的mdx,就喜欢补充数据。我改了数据,会加校记。别的mdx作者似乎爱随手改了就算。

第一版的中国大百科全书,内容的确很好,就是光盘版使用太麻烦了。
之前也使用过这2种版本:
24CD版本,只能运行在32位系统,内容可以复制。
4CD版本,内容不能复制。

mdx版中国大百科全书已经做的相当完美,远超此前的各种版本,没有必要如此怀旧吧?