问豆包写的
网页布局类似这样
卡车.7z (9.1 KB)
这个卡车之家专门介绍各种卡车的网站,反爬措施不严,快提取完了,就是这个样式一直搞不定,问了很多次豆包,左右标签行和数据行一直对不齐问题搞不定,有人能帮忙写一个吗,提取完,分享到论坛,,
对应的网页
下面是对应的提取程序:
kachezhijia_xiangqing06.py (61.9 KB)
从我的角度来看,这个网站卡车数据做成mdx格式确实不错,做到现在不想做了,一千多条,图片数据包就150G了,没做的十万多链接
问豆包写的
这个卡车之家专门介绍各种卡车的网站,反爬措施不严,快提取完了,就是这个样式一直搞不定,问了很多次豆包,左右标签行和数据行一直对不齐问题搞不定,有人能帮忙写一个吗,提取完,分享到论坛,,
对应的网页
下面是对应的提取程序:
kachezhijia_xiangqing06.py (61.9 KB)
从我的角度来看,这个网站卡车数据做成mdx格式确实不错,做到现在不想做了,一千多条,图片数据包就150G了,没做的十万多链接
最好提供原版的样式,尝试了下,左右高度没对齐,有的 38px 有的 42px,还有隐藏的单元格,改不动。
从我的角度来看,这个网站卡车数据做成mdx格式确实不错,图片像素大概1200x800,就现在960个链接图片40g以上了,目前详情链接4万多而且随着提取的进度增加详情链接还会一点点增加
测试样本有点不匹配
卡车0.zip (24.0 KB)
,提取时删除了容器里的特别是询价标签里的a标签,导致右侧数据行整体上移,这个才是最终提取的网页数据,之前那个带询价标签的是我手动添加的,忘了删了
11m.css (167.4 KB)
非常感谢老大的解答 ![]()