图片几栏、N栏的没啥再纠结的了

看掌上百科的管理发了个截图,找了下应该是这个

40-50.rar (206.2 KB)
json初试(提取).txt (1.6 KB)

百度现在应该500下/月。
合合就只有100下。

对了,下压缩包后先把页码前的全删掉再执行批处理

这个只选取后提

有百度那边账号的朋友试试,觉得应该都不赖。
可玩可控性很好。

3 个赞

栏之间距离很近的话,很容易跨栏识别,这样数据就错乱了

1 个赞

你还是没看明白文字行坐标,官方的文档说得很清楚了

每栏的左上起点的(假设先叫它A点)X数值差那么老多。就是再近,也不可能下一栏点的起点坐标跑到前一栏后端充当中间的坐标点黏糊到一块的。何来数据混乱?

用过很多次了,确实遇到过。你可以找个栏距近的试试看,必然有跨栏识别的

走错门了吧?2、5有时是你说的那样,但用坐标也能扒开(就是多几步,不像1给你都弄好了)

进第一家

没走错门,1,2,5都用过无数次了,它们都有哪些问题非常清楚。

多数可以通过坐标分开,有些坐标就是整页宽度的坐标,无法分开,文档解析无法通过坐标分开,除非使用文档解析里的行数据,那解析也就失去意义了,没有style信息,相当于纯文字识别。