一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

<ol id="16161"><dl id="16161"></dl></ol>

<abbr id="16161"><dl id="16161"></dl></abbr>

<blockquote id="16161"><ruby id="16161"><optgroup id="16161"></optgroup></ruby></blockquote>

分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python爬蟲之scrapy框架詳解

python爬蟲之scrapy框架詳解

2022-03-07 00:11可小v. Python

這篇文章主要為大家介紹了python爬蟲之scrapy框架，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助

1.在pycharm下安裝scrapy函數庫
2.將安裝好scrapy函數庫下的路徑配置到系統path的環境變量中
3.打開cmd終端輸入：scrapy.exe檢查是否安裝成功
4.創建一個項目：scrapy startproject 項目名字
5.cd進入該目錄下，創建一個spider：scrapy genspider 項目名字 網址
6.編輯settings.py文件中的USER_AGENT選項為正常的瀏覽器頭部
7.執行這個spider：scrapy crawl 項目名字
8.如果遇到因pip版本太低導致安裝不了scarpy函數庫，可以先在cmd窗口輸入py -m pip install --upgrade pip升級命令（前提是你的python環境下得有pip，可通過輸入pip命令查看是否已安裝，如未安裝得去官網下載并解壓至相應路徑）

代碼示例命令截圖:

python爬蟲之scrapy框架詳解

項目文件截圖：

python爬蟲之scrapy框架詳解

settings.py文件截圖：（需要修改爬取網站的USER_AGENT）

python爬蟲之scrapy框架詳解

scrapy運行工作流程圖:

Spiders(爬蟲):它負責處理所有Responses,從中分析提取數據，獲取Item字段需要的數據，并將需要跟進的URL提交給引擎，再次進入Scheduler(調度器)

Engine(引擎)：負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，信號、數據傳遞等。

Scheduler(調度器)：它負責接受引擎發送過來的Request請求，并按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

Downloader(下載器)：負責下載Scrapy Engine(引擎)發送的所有Requests請求，并將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理

ItemPipeline(管道):它負責處理Spider中獲取到的Item，并進行進行后期處理（詳細分析、過濾、存儲等）的地方.

Downloader Middlewares（下載中間件）：你可以當作是一個可以自定義擴展下載功能的組件。

Spider Middlewares（Spider中間件）：你可以理解為是一個可以自定擴展和操作引擎和Spider中間

通信的功能組件（比如進入Spider的Responses;和從Spider出去的Requests）
python爬蟲之scrapy框架詳解

總結

本篇文章就到這里了，希望能夠給你帶來幫助，也希望您能夠多多關注服務器之家的更多內容!

原文鏈接：https://blog.csdn.net/qq_62037643/article/details/121502999

延伸 · 閱讀

2022-03-10淺談Python flask框架
2022-03-02用數據說話，序列化框架測評報告
2022-03-02Java Apache Shiro安全框架快速開發詳解流程
2022-03-01如何手擼一個較為完整的RPC框架？
2022-03-01C++輕量級界面開發框架ImGUI介紹小結
2022-03-01python爬蟲框架scrapy代理中間件掌握學習教程

精彩推薦

Python

python 插入Null值數據到Postgresql的操作

這篇文章主要介紹了python 插入Null值數據到Postgresql的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

MichaelZhu6452021-09-16
Python

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

在本篇內容里小編給大家分享的是關于Python3以GitHub為例來實現模擬登錄和爬取的實例講解，需要的朋友們可以參考下。 ...

愛喝馬黛茶的安東尼5262020-07-31
Python

python 列表轉為字典的兩個小方法(小結)

這篇文章主要介紹了python 列表轉為字典的兩個小方法(小結)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的...

出泥的魚16542021-07-25
Python

在Windows系統上搭建Nginx+Python+MySQL環境的教程

這篇文章主要介紹了在Windows系統上搭建Nginx+Python+MySQL環境的教程,文中使用flup中間件及FastCGI方式連接,需要的朋友可以參考下 ...

沒有終點的列車13242020-08-05
Python

Python的dict字典結構操作方法學習筆記

這篇文章主要介紹了Python的dict字典結構操作方法學習筆記本,字典的操作是Python入門學習中的基礎知識,需要的朋友可以參考下...

Lizo_Is_Me4402020-08-22
Python

使用NumPy和pandas對CSV文件進行寫操作的實例

今天小編就為大家分享一篇使用NumPy和pandas對CSV文件進行寫操作的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

qq_2468356113602021-03-05
Python

Python實現ping指定IP的示例

今天小編就為大家分享一篇Python實現ping指定IP的示例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

EpisodeOne12902021-02-28
Python

python直接訪問私有屬性的簡單方法

下面小編就為大家帶來一篇python直接訪問私有屬性的簡單方法。小編覺得挺不錯的，現在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧 ...

Python教程網5152020-09-03

主站蜘蛛池模板：三上悠亚国产精品一区 | 俄罗斯大白屁股 | 第一福利在线视频 | 日本久久免费大片 | 猛操美女| 日本一区二区三区久久精品 | 美女厕所尿尿擦逼 | 精品国产91久久久久久久 | 男人天堂官方网站 | 久久精品一区二区三区资源网 | 色多多视频网站 | 91制片厂制作传媒网站破解 | 女同全黄h全肉动漫 | 超级碰碰免费视频 | 亚洲AV国产福利精品在现观看 | 国产午夜精品久久理论片小说 | 99久9在线视频 | 久久久久久久久性潮 | 国产免费视频 | 亚洲国产精品成 | 四虎免费影院ww4164h | 美女脱了内裤打开腿让男人图片 | 国产精品99在线观看 | 成人网址大全 | 国产美女屁股直流白浆视频无遮挡 | avtt天堂网手机资源 | 我年轻漂亮的继坶2中字在线播放 | 偷偷狠狠的日日高清完整视频 | 欧美精品亚洲精品日韩专区va | 护士们的母狗 | 亚洲欧美日韩国产一区二区精品 | 国内精品91东航翘臀女神在线 | 午夜神器老司机高清无码 | 5x社区在线观看直接进入 | 日韩porn| 青青青国产精品国产精品美女 | 亚洲福利天堂 | 校花被老头夺去第一次动图 | 四虎精品永久在线网址 | 色五婷婷 | 99er在线视频 |

<abbr id="11661"></abbr>