有没有对比两个文件不同的方法

维基百科一段时间更想一次,导致做mdx字典这次没做好,下次的都已经更新了,那有没有什么方法,比如分别下载离线的词头文件1和2,用什么方法对比两个文件1和2都有什么相同的,把2里有的行内容但和1行里没有的内容写入到3里面,3要求3里面内容排除1和2都有的内容行,1里面有的内容行但2里面没有不写入,2里面有但1里面没有才写入,试过emeditor里面的全选删除重复行标签那个功能不行,也试过python程序删除两个文件的重复行,但只能删除重复行但会保留重复行一个,如果解决了,维基百科每次更新,对比上次词头内容,下载不同内容再打包,不好吗?

两个文件 放到一起,去掉完全重复行就行了。


0102

这个方法我用到过,在吾爱论坛看到过,但1里面有但2里面没有这个问题解决不了:face_exhaling:,试过把维基百科0720和0901的词头合并到一个文件,按这个方法,还剩200多万词头(单处理0901词头去掉分类那些,保留单纯的词头也还剩200多万词头)

这样生成的 mdx,内部的链接跳转会出很多问题。

有啥问题?暂时没遇到过内部跳转问题。

你试试emeditor csv模式,列对比,


002

新旧两个文件,行不外就是四种情况,一是完全相同,二是词头相同、内容改动,三是删除了,四是新增。
两文件处理一下,开CSV模式,【删除/把重复行设为书签】,用列对比模式,你想提取那些情况,都可以做到。