网上下的不能用
还附带垃圾程序
请帮忙推荐一下
把好几百个HTML文件
转换成TXT文件
在此拜谢
网上下的不能用
还附带垃圾程序
请帮忙推荐一下
把好几百个HTML文件
转换成TXT文件
在此拜谢
我建议你把需求说明白一点。
我猜你是要将 <span>apple</span>
转成 apple
?
大神
小弟有一套中医古籍资料
七八百左右
都是html格式
想转为TXT格式的
方便使用
就是数量太多
七八百
所以想找个程序
说真的,我还是没看懂你要的是什么。是只需要改后缀名吗?还是说我举例的那样?
老马的TextForever
https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ?pwd=4hie 提取码:4hie
估计他也看不懂你说什么
直接暴力上答案
确实听不懂
其实就是简单改文件名
合并html.7z (153 Bytes)
是要合并几百个html网页,并且存成txt么。
解压了放到需要合并的文件夹内,双击即可
仔细解释一下
中医笈成资料的原始数据都是html
八百多的中医古籍都是html格式
在比较了anytxt
docfetch等等软件之后
感觉recoll软件建立文件搜索最适合自己的使用
recoll软件用十年前中医笈成的txt格式
效果很好
不过数据太老
文本错误多
现在新的中医笈成资料都是html格式,建立索引后出现乱码的问题
所以想把html格式都转成txt格式
著名的Nirsoft的html转txt工具: https://www.nirsoft.net/utils/htmlastext.zip
乱码应该跟文件格式没关系,跟文件编码方式有关
我也觉得奇怪
用docfetch处理html是没有问题的
recoll一处理就乱码
但是recoll处理txt却正常
转纯文字?
别转换啦。
经常就是挤成一团。
把文件传上来,让大家帮你看看怎么改好。。
好的
一会我传上来
所以你是要把所有html转成纯文字?
是的
正是如此
感谢分享,目前最好最完整的中医资料了吧,比殆知阁的医藏丰富很多。TXT编码都是UTF8
链接: 百度网盘-链接不存在 提取码: 0tmm
谢谢大神转制
殆知阁医藏错误太多
没有精心校对啊
笈成是台湾大神好些年一直持续修正的文本
功德无量啊
感谢okayer大神
精良的文本是学术研究的重要条件