关于反爬虫和恶意攻击的一些策略和思路
前段时间 Guang.com 经常受到恶意 spider 攻击,疯狂抓取网站内容,一系列机器人 spam 发广告,对网站性能有较大影响。 下面我说说一些反恶意 spider 和 spam 的策略和思路。 1. 通过日志分析来识别恶意爬虫 / 攻击 less guang.com_access.log | awk -F- '{print $1}' | sort | uniq -c | sort -rn | head -n 50 首先分析 access log ,类聚统计出访问量前 50 IP 排除白名单 IP 和正常 spider ( baidu , google...) host 112.94.32.135 //查看可疑ip是不是baidu、google等常规爬虫。 分析可以 ip 请求时间、频率、路径等,你可以很容易发现这是否是一个 spider ,下面那明显是一个 spider 。 less access.log | grep '112.94.32.135' | less 112.94.32.135 - - [1/Oct/2012:00:00:50 +0800] "GET /baobei/1888476 HTTP/1.1" 200 107876 "-" "Mozilla/4.0" 112.94.32.135 - - [1/Oct/2012:00:00:50 +0800] "GET