维基百科一段时间更想一次,导致做mdx字典这次没做好,下次的都已经更新了,那有没有什么方法,比如分别下载离线的词头文件1和2,用什么方法对比两个文件1和2都有什么相同的,把2里有的行内容但和1行里没有的内容写入到3里面,3要求3里面内容排除1和2都有的内容行,1里面有的内容行但2里面没有不写入,2里面有但1里面没有才写入,试过emeditor里面的全选删除重复行标签那个功能不行,也试过python程序删除两个文件的重复行,但只能删除重复行但会保留重复行一个,如果解决了,维基百科每次更新,对比上次词头内容,下载不同内容再打包,不好吗?
这个方法我用到过,在吾爱论坛看到过,但1里面有但2里面没有这个问题解决不了,试过把维基百科0720和0901的词头合并到一个文件,按这个方法,还剩200多万词头(单处理0901词头去掉分类那些,保留单纯的词头也还剩200多万词头)
这样生成的 mdx,内部的链接跳转会出很多问题。
有啥问题?暂时没遇到过内部跳转问题。