Txt 如何转HTML格式

jax · 2024 年4 月 1 日 10:55

请问下大佬们. 有没有什么txt转HTML工具. 最好标签丰富点，智能点.

把PDF文档 ORC后. 你们是怎么转HTML格式的啊。并且是怎么添加各种丰富的标签的？

难道纯手动？

last_idol · 2024 年4 月 1 日 11:12

PDF 文档用 ABBYY FineReader 转 HTML。

jax · 2024 年4 月 1 日 11:19

ABBY 不知道是不是我设置的问题. ORC的质量非常差。差到完全不能用的地步。
我用的是夸克扫描王. 质量非常高，但是只能导出word格式.

其次ABBY 转HTML格式。标签基本就是每一行就是一个P标签。不是很满意。

amob · 2024 年4 月 1 日 11:20

赞同，转成html没法看的，手动加。

jax · 2024 年4 月 1 日 11:25

夸克转word格式. 然后用word文档的单词纠错功能. 进行校正. 最后就是复制粘贴到txt. 然后利用emeditor去手动制作成MDX 。我目前是这么做的，工作量巨大。

想着有没有什么智能添加标签的工具，省点工作。

last_idol · 2024 年4 月 1 日 11:26

不知道，我参与做的都是 FineReader 转的，因为需要校对，用 FineReader 是最好的选择，没接触过别的。OCR 质量差，可以考虑重新扫下。

shaoshi · 2024 年4 月 1 日 11:43

图像假如无法重新扫描，可以考虑先用老马的comicviewenhancer先处理一下，有时处理后效果会有天渊之别。

假如想用finereader存为html，在ocr前要先把结果设置为格式化文本。

jax · 2024 年4 月 1 日 11:45

目前工作量大的是添加HTML标签。想着有没有什么智能点的工具。 ABBY就是无脑每行就是一个P标签。不是很满意

shaoshi · 2024 年4 月 1 日 11:51

不一定如此。可能你的图像太差，也可能设置不对。

但是你既然觉得别的软件用了顺手，就用别的软件吧。这个得自己多实践体会。

假如我没记错，jcz777兄用finereader，可以识别出词头的黑体，存为html，黑体的标签出来了，就可以处理词头。

@jcz777
是这样吗？

jcz777 · 2024 年4 月 1 日 12:20

匹配上可以，但实际上效果比较差，会在大量错误匹配。如果页数不算多的话，可以手动处理一下，统一一下字体格式。有统一的字体格式，就很容易正确匹配。

clavin · 2024 年4 月 2 日 03:04

Word排版后直接转html