爬虫: 去重 [TODO]

1.

在scrapy的进程中,默认的方式是把url放到内存中,从而到达过滤到重复的url情况。如果是在不同的进程中,可以开启RFPDupeFilter,也可以自定义DupeFilte

 

利用scrapy-redis 可以自动出去重复的url

 

scrapy 默认会根据url的finger print 进行去重的,不要担心请求发重复了

 

参考:

[1]http://www.fengxiaochuang.com/?p=144 [TODO]

发表评论

电子邮件地址不会被公开。 必填项已用*标注