7。网络爬虫为什么要用代理
网络爬虫为什么要用代理
我们在做爬虫的过程中经常会遇到这样的情况、最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一盏茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到"您的IP访问频率太高"这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施.
比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP
既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗? 一种有效的解决办法方式
由于爬虫的访问速度过快,很可能遇到IP访问过于频繁的问题,网站一般会让我们输入验证码、真人验证、登录,甚至直接封禁IP,这样爬取数据就会很麻烦,而使用代理隐藏IP,就能很好的解决这个问题了,代理是如何隐藏IP的呢?
首先,我们不用代理,那么我就是直接访问网站服务器,网站服务器就能知道这次访问来自哪个IP地址,当多次频繁访问后就封禁了.
然而使用代理后,我们便不是直接访问网站服务器了,而是先访问代理服务器,代理服务器再访问网站服务器,得到结果后,再把结果返回给我们,这样网站服务器得到的IP地址便是代理服务器的地址,而不是我们的IP地址了,当我们的代理服务器不断变换IP地址去访问网站服务器时,就不会被验证或封禁了.
其实就是相当于我打电话给一个人,频繁去打,这个人发现我老是不停的打他的电话,他就很烦,然后就把我拉黑了,而当我请上代理人打电话给他,如:我的1号朋友打个电话给他,2号朋友又打一个电话,3号朋友再打,然后把得到的信息给我,这样就不会被他认定为是我一直打电话给他,从而拉黑我了.