求助有没有能批处理将几百个html转为txt的可靠程序

网上下的不能用
还附带垃圾程序

请帮忙推荐一下

把好几百个HTML文件
转换成TXT文件

在此拜谢

我建议你把需求说明白一点。

我猜你是要将 <span>apple</span> 转成 apple

大神
小弟有一套中医古籍资料
七八百左右
都是html格式
想转为TXT格式的

方便使用

就是数量太多
七八百
所以想找个程序

1 个赞

说真的,我还是没看懂你要的是什么。是只需要改后缀名吗?还是说我举例的那样?

老马的TextForever
https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ?pwd=4hie 提取码:4hie

估计他也看不懂你说什么 :laughing:
直接暴力上答案

2 个赞

确实听不懂

其实就是简单改文件名

无效回答,予以折叠

合并html.7z (153 Bytes)

是要合并几百个html网页,并且存成txt么。

解压了放到需要合并的文件夹内,双击即可

1 个赞

仔细解释一下
中医笈成资料的原始数据都是html
八百多的中医古籍都是html格式

在比较了anytxt
docfetch等等软件之后

感觉recoll软件建立文件搜索最适合自己的使用

recoll软件用十年前中医笈成的txt格式
效果很好
不过数据太老
文本错误多
现在新的中医笈成资料都是html格式,建立索引后出现乱码的问题

所以想把html格式都转成txt格式

著名的Nirsoft的html转txt工具: https://www.nirsoft.net/utils/htmlastext.zip

乱码应该跟文件格式没关系,跟文件编码方式有关

我也觉得奇怪
用docfetch处理html是没有问题的

recoll一处理就乱码
但是recoll处理txt却正常

转纯文字?
别转换啦。
经常就是挤成一团。

把文件传上来,让大家帮你看看怎么改好。。

好的
一会我传上来

2 个赞

所以你是要把所有html转成纯文字?

1 个赞

是的
正是如此

1 个赞

感谢分享,目前最好最完整的中医资料了吧,比殆知阁的医藏丰富很多。TXT编码都是UTF8

链接: 百度网盘-链接不存在 提取码: 0tmm

2 个赞

谢谢大神转制
殆知阁医藏错误太多
没有精心校对啊

笈成是台湾大神好些年一直持续修正的文本
功德无量啊

感谢okayer大神

精良的文本是学术研究的重要条件