如何制作文字版辞典

shaoshi · 2023 年1 月 27 日 12:08

这个没有通用的方法，需要分析网页的结构，然后用脚本或正则把每一页处理成mdx的一条。

基本的概念就是一条的第一行是词头，第二行接下来是内容，第三行是分割符号。

和佛爷把epub转成mdx的原理是一样的。epub就是htm网页包。你可以看看佛爷是怎样做的，寻找灵感。

补充：

1.可以先用老马的textforever合并所有网页。

2.看一下网页的title能不能做词头，假如不行，看看网页内有没有标题h1/h2/h3之类的可以做词头。