很多人在网上看到过这样的文章:代理IP可以突破访问限制,提高访问速度,隐藏真实IP等等,相当全能。当我使用代理IP时,我发现它不起作用。我感觉我用的是假的代理IP。怎么回事?
第一,代理IP也怕爬回来
当您使用本机IP访问网站时,本机IP受到限制。你想过用代理IP来解决问题,但是过了一段时间,使用代理IP也受到访问限制。这是为什么?可能的原因是什么?
1.不伪装成User-Agent,在目标网站眼里,你是自动程序访问,而不是真正的用户访问。即使你用的是高质量的代理IP,你还是会被识别和限制。
2.Referer防盗链。有些图片或者视频网站经常会有这样的防盗链机制。如果你直接访问一个URL,无论使用多高质量的代理IP,访问都会失败,需要在标头中带一个Referer(以前的URL)才能成功。
3.访问频率太快。为了减轻服务器的压力,站长通常会设置访问频率的阈值,比如一分钟可以访问多少次。如果超过此阈值,将限制IP访问。代理IP的使用也遵循这个规则,否则会受到限制。
4.其他原因,比如定期访问网页的间隔,无论访问什么网址,都需要1秒,容易被识别和限制,还有cookie、验证码等因素。
第二,代理知识产权以数量取胜
如果你的原生IP被限制在10秒内访问一个网站100次,那么使用代理IP访问一个网站100次也将被限制。解决方法可以是:使用5个代理IP,每个代理IP在10秒内访问网站20次。采用这种策略,代理IP不会受到限制。
代理IP的优势是数量大,可以买几千个代理IP来完成任务。但是只有一个原生IP,被限制后无法访问。代理IP不怕。一个代理IP受到限制,因此您可以切换另一个代理IP以继续工作。当然,最有效的方法是在不触发反爬策略的情况下稳定持续地工作。