raw_zgls.mdx (12.0 MB)
开发中,todo_list:
- 替换内码为Unicode
- 替换换行
- 显示章节
- 排版
- 梳理图片、链接
- 校验内容(对照一遍)
已知问题:
- 有两个词条内存中数据有两份同样的数据。
- 有两个词条【@1】与【@Y】中含有换行符。
- 内存数据的提取过宽,导致有乱字符 NUL 等,如果以此为条件,会删掉有的词条。几十卷,若手动修不如等待同好爬在线版的一版了。若修改提取逻辑(如分为实词条和链接词条分别提取、bytes逐码与已有词条对比删除,需要各种验证,有空再玩。
raw_zgls.mdx (12.0 MB)
开发中,todo_list:
已知问题:
感谢分享 ![]()
老兄只举了一个例子。
根据少数例子来做结论,结论未必可信。
像邓小平这种重要的词条,做mdx的人假如根据更新的版本补充了数据,也不是不可能的事。
我自己做的mdx,就喜欢补充数据。我改了数据,会加校记。别的mdx作者似乎爱随手改了就算。
第一版的中国大百科全书,内容的确很好,就是光盘版使用太麻烦了。
之前也使用过这2种版本:
24CD版本,只能运行在32位系统,内容可以复制。
4CD版本,内容不能复制。
mdx版中国大百科全书已经做的相当完美,远超此前的各种版本,没有必要如此怀旧吧?