请教:OCR转为的html该如何处理

  1. 总体上如何将同一格式(中文词头、数字标号1. 数字标号1)等) 统一标签? 2. 中文词头中的拼音如何校对,增加声调?3. 如增添新的bookmark标签,其序号该如何自动重新排序?4. 带有背景色的文字如何添加标签。5. 如何转mdx?
    感谢层主回复!文档附件已删除。

其他用正则处理,文本及拼音校对,分割成小文件召集人手弄吧,一个人200条,10个人就完事了。我看只有2100个词头,如果识别没错的话(肯定有错)。

感谢指点。我只是想弄明白自己可能会用上的东西,这样才能记得住;用不上的东西很快就会忘记。正则处理正在学,还行。但bookmark标签中的序号该如何自动重新排序仍未找到处理答案。附件到时删除。

bookmark这个标签是什么用途?拼音可以全删了,省点校对时间。如果确实需要,可以用python加上,需要写代码处理,自带声调,多音字需要校对。

非常感谢。所有标签,除了文字带背景色的部分,全部为程序产生。python只能等有了时间再去学。

1 个赞