网上下的不能用
还附带垃圾程序
请帮忙推荐一下
把好几百个HTML文件
转换成TXT文件
在此拜谢
网上下的不能用
还附带垃圾程序
请帮忙推荐一下
把好几百个HTML文件
转换成TXT文件
在此拜谢
我建议你把需求说明白一点。
我猜你是要将 <span>apple</span>
转成 apple
?
大神
小弟有一套中医古籍资料
七八百左右
都是html格式
想转为TXT格式的
方便使用
就是数量太多
七八百
所以想找个程序
说真的,我还是没看懂你要的是什么。是只需要改后缀名吗?还是说我举例的那样?
老马的TextForever
https://pan.baidu.com/s/1PnpZ3Bk-lTArrajva7EVzQ?pwd=4hie 提取码:4hie
估计他也看不懂你说什么
直接暴力上答案
确实听不懂
其实就是简单改文件名
仔细解释一下
中医笈成资料的原始数据都是html
八百多的中医古籍都是html格式
在比较了anytxt
docfetch等等软件之后
感觉recoll软件建立文件搜索最适合自己的使用
recoll软件用十年前中医笈成的txt格式
效果很好
不过数据太老
文本错误多
现在新的中医笈成资料都是html格式,建立索引后出现乱码的问题
所以想把html格式都转成txt格式
乱码应该跟文件格式没关系,跟文件编码方式有关
我也觉得奇怪
用docfetch处理html是没有问题的
recoll一处理就乱码
但是recoll处理txt却正常
转纯文字?
别转换啦。
经常就是挤成一团。
把文件传上来,让大家帮你看看怎么改好。。
好的
一会我传上来
所以你是要把所有html转成纯文字?
是的
正是如此
感谢分享,目前最好最完整的中医资料了吧,比殆知阁的医藏丰富很多。TXT编码都是UTF8
链接: https://pan.baidu.com/s/1DCP-nYQ22qseiSTuYQ4ZCQ 提取码: 0tmm
谢谢大神转制
殆知阁医藏错误太多
没有精心校对啊
笈成是台湾大神好些年一直持续修正的文本
功德无量啊
感谢okayer大神
精良的文本是学术研究的重要条件