Txt 如何转HTML格式

请问下大佬们. 有没有什么txt转HTML工具. 最好标签丰富点,智能点.

把PDF文档 ORC后. 你们是怎么转HTML格式的啊。 并且是怎么添加各种丰富的标签的?

难道纯手动?

PDF 文档用 ABBYY FineReader 转 HTML。

ABBY 不知道是不是我设置的问题. ORC的质量非常差。差到完全不能用的地步。
我用的是夸克扫描王. 质量非常高,但是只能导出word格式.

其次ABBY 转HTML格式。 标签基本就是每一行就是一个P标签。 不是很满意。

赞同,转成html没法看的,手动加。

1 个赞

夸克转word格式. 然后用word文档的 单词纠错功能. 进行校正. 最后就是复制粘贴到txt. 然后利用emeditor去手动制作成MDX 。我目前是这么做的,工作量巨大。

想着有没有什么智能添加标签的工具,省点工作。

不知道,我参与做的都是 FineReader 转的,因为需要校对,用 FineReader 是最好的选择,没接触过别的。OCR 质量差,可以考虑重新扫下。

图像假如无法重新扫描,可以考虑先用老马的comicviewenhancer先处理一下,有时处理后效果会有天渊之别。

假如想用finereader存为html,在ocr前要先把结果设置为格式化文本。

目前工作量大的是添加HTML标签。 想着有没有什么智能点的工具。 ABBY就是无脑每行就是一个P标签。 不是很满意

不一定如此。可能你的图像太差,也可能设置不对。

但是你既然觉得别的软件用了顺手,就用别的软件吧。这个得自己多实践体会。

假如我没记错,jcz777兄用finereader,可以识别出词头的黑体,存为html,黑体的标签出来了,就可以处理词头。

@jcz777
是这样吗?

匹配上可以,但实际上效果比较差,会在大量错误匹配。如果页数不算多的话,可以手动处理一下,统一一下字体格式。有统一的字体格式,就很容易正确匹配。

Word排版后直接转html