注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

姑射道人的博客

博客新地址:nixuchen.com

 
 
 

日志

 
 

关于爬取网站 遇到Filtered offsite request  

2014-04-08 21:10:08|  分类: python |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

将域名注释掉就好了  scrapy

allowed_domains 或者这里不要写http

OffsiteMiddleware 

scrapy.contrib.spidermiddleware.offsite。OffsiteMiddleware 

蜘蛛所涵盖的领域之外的URL请求的过滤掉。

这个中间件过滤掉不在蜘蛛的allowed_domains属性是每个请求的主机名

当你的蜘蛛返回蜘蛛所涵盖的那些不属于域的请求,该中间件将记录这一个类似的调试消息:

DEBUG:过滤异地请求'www.othersite.com':

为了避免噪音太大填充日志,它只会打印这些消息之一,为每个新域名过滤。因此,举例来说,如果另一个www.othersite.com请求进行过滤,没有日志消息将被打印。但是,,如果请求someothersite.com过滤,消息将被打印(但仅限于在第一次请求过滤)。

如果蜘蛛不定义一个 allowed_domains属性,或者该属性为空,异地中间件将允许所有的请求。

如果要求有的dont_filter属性集,异地中间件将允许请求,即使其领域中未列出允许的域。

 

OffsiteMiddleware

class scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware

Filters out Requests for URLs outside the domains covered by the spider.

This middleware filters out every request whose host names aren’t in the spider’s allowed_domains attribute.

When your spider returns a request for a domain not belonging to those covered by the spider, this middleware will log a debug message similar to this one:

DEBUG: Filtered offsite request to 'www.othersite.com':

To avoid filling the log with too much noise, it will only print one of these messages for each new domain filtered. So, for example, if another request for www.othersite.com is filtered, no log message will be printed. But if a request for someothersite.com is filtered, a message will be printed (but only for the first request filtered).

If the spider doesn’t define an allowed_domains attribute, or the attribute is empty, the offsite middleware will allow all requests.

If the request has the dont_filter attribute set, the offsite middleware will allow the request even if its domain is not listed in allowed domains.

  评论这张
 
阅读(915)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017