有什么技术可以识别出一段文本中的有意义的文本

请教个与全文搜索相关的问题:

有什么软件可以比对两个文本文件,找出最为接近的行、进行可视化的分栏对比?

这个最为接近的行,可以是按这一行在另一个文档中搜索相同UTF码最多的行、并按相似度排序;如果这一行对应有三四个以上的另一个文档相同行,则比对范围可以增加前/后行、再进行搜索比较

现有的软件如BeyondCompare大多是找不同,两个文档类似的行、稍微有不同就pass了
开源的Meld可以用正则表达式pass掉部分内容再开始比较,这一点不错,可惜还是找不同而不是找相似