请教：OCR转为的html该如何处理

dictsun · 2022 年5 月 26 日 13:31

总体上如何将同一格式（中文词头、数字标号1. 数字标号1）等) 统一标签？ 2. 中文词头中的拼音如何校对，增加声调？3. 如增添新的bookmark标签，其序号该如何自动重新排序？4. 带有背景色的文字如何添加标签。5. 如何转mdx？
感谢层主回复！文档附件已删除。

last_idol · 2022 年5 月 26 日 16:12

其他用正则处理，文本及拼音校对，分割成小文件召集人手弄吧，一个人200条，10个人就完事了。我看只有2100个词头，如果识别没错的话（肯定有错）。

dictsun · 2022 年5 月 27 日 00:33

感谢指点。我只是想弄明白自己可能会用上的东西，这样才能记得住；用不上的东西很快就会忘记。正则处理正在学，还行。但bookmark标签中的序号该如何自动重新排序仍未找到处理答案。附件到时删除。

last_idol · 2022 年5 月 27 日 01:22

bookmark这个标签是什么用途？拼音可以全删了，省点校对时间。如果确实需要，可以用python加上，需要写代码处理，自带声调，多音字需要校对。

dictsun · 2022 年5 月 27 日 08:05

非常感谢。所有标签，除了文字带背景色的部分，全部为程序产生。python只能等有了时间再去学。