互联网上允许合理爬取的材料浩如烟海,以合理的形式组织起来可大大提高资源的利用效率。以前用软件爬过一些网页,得到一堆html,后续的清洗加工繁不胜烦,最近想到应该在爬的时候直接放到数据库里,后续的处理会方便很多,象制作词典这种材料可能爬完了那mdx也就基本完工了,修修剪剪在数据库里也是相当方便。(主要的启发来自 @douglarek 兄曾经说应在爬取的同时就处理好。)只是对爬虫才刚勉强入门,对数据库语言更是一窍不通,比如象从 mdx 文件中访问mdd中的图片音频数据的操作更是从没想明白过。如果坛子里有这样的熟手高手,不妨露一手给我这样的新手学习学习。谢谢!
参考:<>https://blog.csdn.net/qq_57249957/article/details/121965150<>