一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

<table id="qqwgi"><wbr id="qqwgi"></wbr></table>

<button id="qqwgi"></button>

<cite id="qqwgi"></cite>

<rt id="qqwgi"></rt>

<li id="qqwgi"></li>

分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python3以GitHub為例來實現模擬登錄和爬取的實例講解

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

2020-07-31 00:01愛喝馬黛茶的安東尼 Python

在本篇內容里小編給大家分享的是關于Python3以GitHub為例來實現模擬登錄和爬取的實例講解，需要的朋友們可以參考下。

我們先以一個最簡單的實例來了解模擬登錄后頁面的抓取過程，其原理在于模擬登錄后 Cookies 的維護。

1. 本節目標

本節將講解以 GitHub 為例來實現模擬登錄的過程，同時爬取登錄后才可以訪問的頁面信息，如好友動態、個人信息等內容。

我們應該都聽說過 GitHub，如果在我們在 Github 上關注了某些人，在登錄之后就會看到他們最近的動態信息，比如他們最近收藏了哪個 Repository，創建了哪個組織，推送了哪些代碼。但是退出登錄之后，我們就無法再看到這些信息。

如果希望爬取 GitHub 上所關注人的最近動態，我們就需要模擬登錄 GitHub。

2. 環境準備

請確保已經安裝好了 requests 和 lxml 庫，如沒有安裝可以參考第 1 章的安裝說明。

3. 分析登錄過程

首先要分析登錄的過程，需要探究后臺的登錄請求是怎樣發送的，登錄之后又有怎樣的處理過程。

如果已經登錄 GitHub，先退出登錄，同時清除 Cookies。

打開 GitHub 的登錄頁面，鏈接為 https://github.com/login，輸入 GitHub 的用戶名和密碼，打開開發者工具，將 Preserve Log 選項勾選上，這表示顯示持續日志，如圖 10-1 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

點擊登錄按鈕，這時便會看到開發者工具下方顯示了各個請求過程，如圖 10-2 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

點擊第一個請求，進入其詳情頁面，如圖 10-3 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

可以看到請求的 URL 為 https://github.com/session，請求方式為 POST。再往下看，我們觀察到它的 Form Data 和 Headers 這兩部分內容，如圖 10-4 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

Headers 里面包含了 Cookies、Host、Origin、Referer、User-Agent 等信息。Form Data 包含了 5 個字段，commit 是固定的字符串 Sign in，utf8 是一個勾選字符，authenticity_token 較長，其初步判斷是一個 Base64 加密的字符串，login 是登錄的用戶名，password 是登錄的密碼。

綜上所述，我們現在無法直接構造的內容有 Cookies 和 authenticity_token。下面我們再來探尋一下這兩部分內容如何獲取。

在登錄之前我們會訪問到一個登錄頁面，此頁面是通過 GET 形式訪問的。輸入用戶名密碼，點擊登錄按鈕，瀏覽器發送這兩部分信息，也就是說 Cookies 和 authenticity_token 一定是在訪問登錄頁的時候設置的。

這時再退出登錄，回到登錄頁，同時清空 Cookies，重新訪問登錄頁，截獲發生的請求，如圖 10-5 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

訪問登錄頁面的請求如圖所示，Response Headers 有一個 Set-Cookie 字段。這就是設置 Cookies 的過程。

另外，我們發現 Response Headers 沒有和 authenticity_token 相關的信息，所以可能 authenticity_token 還隱藏在其他的地方或者是計算出來的。我們再從網頁的源碼探尋，搜索相關字段，發現源代碼里面隱藏著此信息，它是一個隱藏式表單元素，如圖 10-6 所示。

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

現在我們已經獲取到所有信息，接下來實現模擬登錄。

4. 代碼實戰

首先我們定義一個 Login 類，初始化一些變量：

1

2

3

4

5

6

7

8

9

10

11

12

									class Login(object):

									    def __init__(self):

									        self.headers = {

									            'Referer': 'https://github.com/',

									            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 

									            Chrome/57.0.2987.133 Safari/537.36',

									            'Host': 'github.com'

									        }

									        self.login_url = 'https://github.com/login'

									        self.post_url = 'https://github.com/session'

									        self.logined_url = 'https://github.com/settings/profile'

									        self.session = requests.Session()

這里最重要的一個變量就是 requests 庫的 Session，它可以幫助我們維持一個會話，而且可以自動處理 Cookies，我們不用再去擔心 Cookies 的問題。

接下來，訪問登錄頁面要完成兩件事：一是通過此頁面獲取初始的 Cookies，二是提取出 authenticity_token。

在這里我們實現一個 token() 方法，如下所示：

1

2

3

4

5

6

									from lxml import etree

									def token(self):

									    response = self.session.get(self.login_url, headers=self.headers)

									    selector = etree.HTML(response.text)

									    token = selector.xpath('//div/input[2]/@value')[0]

									    return token

我們用 Session 對象的 get() 方法訪問 GitHub 的登錄頁面，然后用 XPath 解析出登錄所需的 authenticity_token 信息并返回。

現在已經獲取初始的 Cookies 和 authenticity_token，開始模擬登錄，實現一個 login() 方法，如下所示：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

									def login(self, email, password):

									    post_data = {

									        'commit': 'Sign in',

									        'utf8': '?',

									        'authenticity_token': self.token(),

									        'login': email,

									        'password': password

									    }

									    response = self.session.post(self.post_url, data=post_data, headers=self.headers)

									    if response.status_code == 200:

									        self.dynamics(response.text)

									    response = self.session.get(self.logined_url, headers=self.headers)

									    if response.status_code == 200:

									        self.profile(response.text)

首先構造一個表單，復制各個字段，其中 email 和 password 是以變量的形式傳遞。然后再用 Session 對象的 post() 方法模擬登錄即可。由于 requests 自動處理了重定向信息，我們登錄成功后就可以直接跳轉到首頁，首頁會顯示所關注人的動態信息，得到響應之后我們用 dynamics() 方法來對其進行處理。接下來再用 Session 對象請求個人詳情頁，然后用 profile() 方法來處理個人詳情頁信息。

其中，dynamics() 方法和 profile() 方法的實現如下所示：

1

2

3

4

5

6

7

8

9

10

11

									def dynamics(self, html):

									    selector = etree.HTML(html)

									    dynamics = selector.xpath('//div[contains(@class, "news")]//div[contains(@class, "alert")]')

									    for item in dynamics:

									        dynamic = ' '.join(item.xpath('.//div[@class="title"]//text()')).strip()

									        print(dynamic)

									def profile(self, html):

									    selector = etree.HTML(html)

									    name = selector.xpath('//input[@id="user_profile_name"]/@value')[0]

									    email = selector.xpath('//select[@id="user_profile_email"]/option[@value!=""]/text()')

									    print(name, email)

在這里，我們仍然使用 XPath 對信息進行提取。在 dynamics() 方法里，我們提取了所有的動態信息，然后將其遍歷輸出。在 prifile() 方法里，我們提取了個人的昵稱和綁定的郵箱，然后將其輸出。

這樣，整個類的編寫就完成了。

5. 運行

我們新建一個 Login 對象，然后運行程序，如下所示：

1

2

3

									if __name__ == "__main__":

									    login = Login()

									    login.login(email='[email protected]', password='password')

在 login() 方法傳入用戶名和密碼，實現模擬登錄。

可以看到控制臺有類似如下輸出：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

									GrahamCampbell  starred  nunomaduro/zero-framework

									GrahamCampbell  starred  nunomaduro/laravel-zero

									happyAnger6  created repository  happyAnger6/nodejs_chatroom

									viosey  starred  nitely/Spirit

									lbgws2  starred  Germey/TaobaoMM

									EasyChris  starred  ageitgey/face_recognition

									callmewhy  starred  macmade/GitHubUpdates

									sindresorhus  starred  sholladay/squatter

									SamyPesse  starred  graphcool/chromeless

									wbotelhos  starred  tkadlec/grunt-perfbudget

									wbotelhos  created repository  wbotelhos/eggy

									leohxj  starred  MacGesture/MacGesture

									GrahamCampbell  starred  GrahamCampbell/Analyzer

									EasyChris  starred  golang/go

									mitulgolakiya  starred  veltman/flubber

									liaoyuming  pushed to  student  at  Germey/SecurityCourse

									leohxj  starred  jasonslyvia/a-cartoon-intro-to-redux-cn

									ruanyf  starred  ericchiang/pup

									ruanyf  starred  bpesquet/thejsway

									louwailou  forked  Germey/ScrapyTutorial  to  louwailou/ScrapyTutorial

									Lving  forked  shadowsocksr-backup/shadowsocksr  to  Lving/shadowsocksr

									qifuren1985  starred  Germey/ADSLProxyPool

									QWp6t  starred  laravel/framework

									Germey ['[email protected]', '[email protected]']

可以發現，我們成功獲取到關注的人的動態信息和個人的昵稱及綁定郵箱。模擬登錄成功！

6. 本節代碼

本節代碼地址：https://github.com/Python3WebSpider/GithubLogin。

7. 結語

我們利用 requests 的 Session 實現了模擬登錄操作，其中最重要的還是分析思路，只要各個參數都成功獲取，那么模擬登錄是沒有問題的。

登錄成功，這就相當于建立了一個 Session 會話，Session 對象維護著 Cookies 的信息，直接請求就會得到模擬登錄成功后的頁面。

以上就是Python3以GitHub為例來實現模擬登錄和爬取的實例講解的詳細內容，更多關于Python3爬蟲以GitHub為例來實現模擬登錄和爬取的資料請關注服務器之家其它相關文章！

原文鏈接：https://www.py.cn/spider/example/14477.html

延伸 · 閱讀

2022-03-11Python爬蟲實戰之爬取某寶男裝信息
2022-03-03Centos7環境安裝Python3的方法
2022-03-02用Python爬取指定關鍵詞的微博
2022-03-01python scrapy拆解查看Spider類爬取優設網極細講解
2022-03-01使用pycharm將自己項目代碼上傳github(小白教程)
2022-03-01python實戰項目scrapy管道學習爬取在行高手數據

精彩推薦

Python

Python的dict字典結構操作方法學習筆記

這篇文章主要介紹了Python的dict字典結構操作方法學習筆記本,字典的操作是Python入門學習中的基礎知識,需要的朋友可以參考下...

Lizo_Is_Me4392020-08-22
Python

python直接訪問私有屬性的簡單方法

下面小編就為大家帶來一篇python直接訪問私有屬性的簡單方法。小編覺得挺不錯的，現在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧 ...

Python教程網5152020-09-03
Python

Python3以GitHub為例來實現模擬登錄和爬取的實例講解

在本篇內容里小編給大家分享的是關于Python3以GitHub為例來實現模擬登錄和爬取的實例講解，需要的朋友們可以參考下。 ...

愛喝馬黛茶的安東尼5262020-07-31
Python

使用NumPy和pandas對CSV文件進行寫操作的實例

今天小編就為大家分享一篇使用NumPy和pandas對CSV文件進行寫操作的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

qq_2468356113602021-03-05
Python

Python實現ping指定IP的示例

今天小編就為大家分享一篇Python實現ping指定IP的示例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

EpisodeOne12892021-02-28
Python

python 插入Null值數據到Postgresql的操作

這篇文章主要介紹了python 插入Null值數據到Postgresql的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧...

MichaelZhu6452021-09-16
Python

python 列表轉為字典的兩個小方法(小結)

這篇文章主要介紹了python 列表轉為字典的兩個小方法(小結)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的...

出泥的魚16532021-07-25
Python

在Windows系統上搭建Nginx+Python+MySQL環境的教程

這篇文章主要介紹了在Windows系統上搭建Nginx+Python+MySQL環境的教程,文中使用flup中間件及FastCGI方式連接,需要的朋友可以參考下 ...

沒有終點的列車13232020-08-05

主站蜘蛛池模板：国产精品成| 亚洲精品丝袜在线一区波多野结衣 | 日本人黄色 | tube69中国露脸 | 车上小婕子系列辣文小说 | 色婷婷天天综合在线 | 欧美不卡一区二区三区 | 肉宠文很肉到处做1v1 | 日韩一品在线播放视频一品免费 | 俄罗斯大逼 | 亚洲国产情侣偷自在线二页 | 爱豆传媒最新视频国产 | 国产欧美日韩在线不卡第一页 | 免费观看视频高清在线 | 高黄h文各种play | 色香婷婷| 亚洲人成毛片线播放 | 蜜桃在线 | 日本一在线中文字幕天堂 | 精品亚洲永久免费精品 | aa一级护士医生毛片 | 三级aa久久| 精品久久日日躁夜夜躁AV | 特黄视频 | bbwfreehd女厕所ved| 亚欧洲乱码专区视频 | 不卡日本 | 国产好痛疼轻点好爽的视频 | 欧美一区二区三区精品影视 | 免费一级特黄特色大片 | 91日本在线观看亚洲精品 | 亚洲高清国产品国语在线观看 | 精品视频九九九 | 大肥婆丰满大肥奶bbw肥 | 亚洲免费小视频 | xxnx日本免费护士 | 成人久久18网站 | 亚洲欧美优优色在线影院 | 国产欧美一区二区三区久久 | 精品亚洲欧美中文字幕在线看 | 国产卡一卡二卡三乱码手机 |

<button id="oiceo"></button><strike id="oiceo"><acronym id="oiceo"></acronym></strike>

<bdo id="oiceo"><source id="oiceo"></source></bdo>

<rt id="oiceo"></rt>

<rt id="oiceo"></rt>

<li id="oiceo"><dl id="oiceo"></dl></li>