之前公司有个小需求,需要将爱帮网的一些商户电话抓取下来,因为之前做过新闻抓取,以为也是手到擒来的小case,firebug查看页面源码,傻眼了,其商户电话是做过加密的,如下:
其源码对应至少20位以上的数字,如下,解决也小费了一番功夫:
仔细发现,那些灰色的都是用来混淆用的,实际的电话号码就是那些黑色的span,上有政策下有对策,发现这个问题,顺藤摸瓜,查看其css文件,找到几组如下的样式:
很明显一组样式是控制数字的显示,一组用于混淆数字的样式,规律找出来,抓取就是浮云了。
本文共 305 字,大约阅读时间需要 1 分钟。
之前公司有个小需求,需要将爱帮网的一些商户电话抓取下来,因为之前做过新闻抓取,以为也是手到擒来的小case,firebug查看页面源码,傻眼了,其商户电话是做过加密的,如下:
其源码对应至少20位以上的数字,如下,解决也小费了一番功夫:
仔细发现,那些灰色的都是用来混淆用的,实际的电话号码就是那些黑色的span,上有政策下有对策,发现这个问题,顺藤摸瓜,查看其css文件,找到几组如下的样式:
很明显一组样式是控制数字的显示,一组用于混淆数字的样式,规律找出来,抓取就是浮云了。
转载于:https://www.cnblogs.com/wumian/articles/2012-12-20-1214.html