Nginx如何限制百度等蜘蛛的抓取频率?

Q:发现有时候,百度抓取非常频繁,会导致服务器压力过大。如何限制他们的抓取频率?

A: Nginxngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。 nginx的配置:

首先,在nginx.conf文件中的http模块下配置

limit_req_zone $binary_remote_addr zone=anti_spider:60m rate=200r/m;

说明:区域名称为one(自定义),占用空间大小为60m,平均处理的请求频率不能超过每秒200次。

$binaryremoteaddr是$remoteaddr(客户端IP)的二进制格式,固定占用4个字节(可能是C语言的long类型长度)。而$remoteaddr按照字符串存储,占用7-15个字节。这样看来用$binaryremoteaddr可以节省空间,但网上又说64位系统下都是占用64个字节,没搞清楚,总之尽量用$binaryremoteaddr吧。

某个server中

limit_req zone=anti_spider burst=5 nodelay;
if ($http_user_agent ~* "baiduspider") {
set $anti_spider $http_user_agent;
}

参数说明:

  • 指令limitreqzone 中的rate=200r/m 表示每分钟只能处理200个请求。
  • 指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
  • 指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503

IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。



评论(0条)

暂时还没有评论,第一个来评论吧!


我要发表看法

引用   粗体   链接   缩进  

最近编辑

热门标签