高频访问IP限制 --Openresty(nginx + lua) [反爬虫之旅]
嗯….本人是从写爬虫开始编程的,不过后面做web写网站去了,好了,最近web要搞反爬虫了,哈哈哈,总算有机会把之以前做爬虫时候见识过的反爬一点点给现在的网站用上了~ 做爬虫的同志,有怪莫怪喽~还有求别打死 > < 首先要提一下AJAX,现在普天下网页几乎都是往特定的数据接口请求数据了,除了什么首屏渲染这种服务端渲染好html以外,几乎没有什么静态网页了。我看了有一些帖子说AJAX让爬虫难做,可是我觉得结合一些工具(比如chrome的开发者工具),找到AJAX所请求的后端数据接口一点也不难,而且现在自己也写过一段时间的web后端数据接口,发现接口的设计往往都是往简单易懂的方向做,外加从2000年出现REST风格,更是让接口设计越来越简明了。所以其实如果一个web站点没有察觉到有爬虫的存在,或者察觉到了,但是没有想要做一点数据保护措施,它是不会再AJAX上做文章的,那么如果单纯的AJAX,其实并没有任何反爬的作用,所以别再说AJAX反爬什么的了,何况AJAX生出来就不是为了反爬的 然而在现在的前后端分离的时代,前端反爬还是有的搞的,基于我不太懂JavaScript,就不展开来说,我只是听说过什么参数加密啊,数据混淆什么的,但其实概括起来都是一种对数据接口的隐藏,这让一些不太懂js的人,也跟着懵逼了(比如说我 : <),但是你要知道,前端代码最终还是要请求一个url的