對于那些需要在登錄環境下進行的爬蟲操作,模擬登陸或偽裝已登錄狀態是一個剛需。
分析了網上關于模擬登錄的例子,很多都基于用戶名/密碼發起一個post請求,遇到有圖片驗證碼的,比較理想的方法是進行人工干預,同步發起一個圖片驗證碼的請求,將圖片寫到本地,人工查看后進行輸入。
既然,少不了人工干預,為何登錄操作不全程人工進行,已登錄后再把瀏覽器的Cookie信息全拷貝出來,通過爬蟲偽造成一個已登錄的瀏覽器呢? 我暫時試了試國內的幾個大網站,發現都行得通,可以模擬瀏覽器進行登錄之后的很多操作,包括簽到,修改個人資料等。
下面貼上簡單的代碼實現:
后話:關于圖片驗證碼,為什么沒有必要去搞一個自動識別?
因為像下面這種簡單的,你也許花上幾天就可以搞定:
但是很多網站它的驗證碼會不斷地變換策略,它變一次可能很快,但對你來說可能就得花上好幾天去改代碼,也許你還沒改完,人家又變了,總之,玩不過你也可以玩死你。
當它想換下面的姿勢給你點驚喜,如果你還沒破解出它的上一套驗證碼時,你肯定會后悔大學選錯了專業:
為了開發出自動搶票軟件,360用了高精尖的團隊,也好像不能百分百識別出下面反人類的驗證碼:
以上所述是小編給大家介紹的python通過cookie模擬已登錄狀態的初步研究,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對服務器之家網站的支持!
原文鏈接:https://my.oschina.net/u/735642/blog/784216