本文主要介紹了scrapy settings配置,分享給大家,具體如下:
1
2
|
# 字符編碼 FEED_EXPORT_ENCODING = 'utf-8' |
1
2
3
4
5
6
7
8
9
10
11
|
# redis寫法一 # REDIS_URL = 'redis://localhost:6379' # redis寫法二 REDIS_HOST = '192.168.10.223' REDIS_PORT = 6379 # 默認的 scrapy redis 會讀取下面的密碼和db REDIS_PARAMS = { 'password' : '123456' , 'db' : redis_db } |
1
2
3
4
|
# 對于失敗的HTTP請求(如超時)進行重試會降低爬取效率,當爬取目標基數很大時,舍棄部分數據不影響大局,提高效率 # RETRY_ENABLED = False # 請求下載超時時間,默認180秒 DOWNLOAD_TIMEOUT = 10 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
# 1:設置去重組件,使用的是scrapy_redis的去重組件,而不是scrapy自己的去重組件了 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 2:設置調度器,使用scrapy——redis重寫的調度器, # 而不再使用scrapy內部的調度器了 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 3:可以實現斷點爬取=jondir,(請求的記錄不會丟失,會存儲在redis數據庫中, # 不會清除redis的隊列,下次直接從redis的隊列中爬取) SCHEDULER_PERSIST = True # 4:設置任務隊列的模式(三選一): # SpiderPriorityQueue數據scrapy-redis默認使用的隊列模式( # 有自己的優先級)默認第一種 SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue" # 使用了隊列的形式,任務先進先出。 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue" # 采用了棧的形式:任務先進后出 # SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack" ''' 用來控制當接收到的 response 頭信息中的 Content-Length 和內容不匹配或者response chunk 未正確結束時的時所采取的操作。 當 DOWNLOAD_FAIL_ON_DATALOSS 為 True 的時候拋出 ResponseFailed([_DataLoss]) 錯誤 當設置為 False 時, 校驗未通過的 response 將被忽略并且添加一個名為 dataloss 的 flag 到 response.flag ''' DOWNLOAD_FAIL_ON_DATALOSS = False MONGO_URI = 'mongodb://用戶名:密碼@ip:port' |
到此這篇關于記錄一下scrapy中settings的一些配置小結的文章就介紹到這了,更多相關scrapy settings配置內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!
原文鏈接:https://blog.csdn.net/GodDavide/article/details/104002234