这个没有通用的方法,需要分析网页的结构,然后用脚本或正则把每一页处理成mdx的一条。
基本的概念就是一条的第一行是词头,第二行接下来是内容,第三行是分割符号。
和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的,寻找灵感。
补充:
1.可以先用老马的textforever合并所有网页。
2.看一下网页的title能不能做词头,假如不行,看看网页内有没有标题h1/h2/h3之类的可以做词头。
这个没有通用的方法,需要分析网页的结构,然后用脚本或正则把每一页处理成mdx的一条。
基本的概念就是一条的第一行是词头,第二行接下来是内容,第三行是分割符号。
和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的,寻找灵感。
补充:
1.可以先用老马的textforever合并所有网页。
2.看一下网页的title能不能做词头,假如不行,看看网页内有没有标题h1/h2/h3之类的可以做词头。