urllib
urllib模塊是python3的URL處理包
其中:
1、urllib.request主要是打開和閱讀urls
個(gè)人平時(shí)主要用的1:
打開對應(yīng)的URL:urllib.request.open(url)
用urllib.request.build_opener([handler, ...]),來偽裝成對應(yīng)的瀏覽器
1
2
3
4
5
6
7
8
9
10
11
12
|
import urllib #要偽裝成的瀏覽器(我這個(gè)是用的chrome) headers = ( 'User-Agent' , 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36' ) url = 'http://hotels.ctrip.com/' opener = urllib.request.build_opener() #將要偽裝成的瀏覽器添加到對應(yīng)的http頭部 opener.addheaders = [headers] #讀取相應(yīng)的url data = opener. open (url).read() #將獲得的html解碼為utf-8 data = data.decode( 'utf-8' ) print (data) |
2、urllib.parse主要是用來解析url
主要方法:
urllib.parse.urlparse(urlstring)
功能:將對應(yīng)的URL解析成六部分,并以元組的數(shù)據(jù)格式返回來。(在功能上和urlsplit()幾乎一模一樣)
1
2
3
4
5
6
7
|
import urllib o = urllib.parse.urlparse( 'http://www.cwi.nl:80/%7Eguido/Python.html' ) print (o) print (o.path) print (o.scheme) print (o.port) print (o.geturl()) |
對應(yīng)的結(jié)果:
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
2、構(gòu)建一個(gè)新的url——urllib.parse.urljoin(base, url)
參數(shù):base:基本的URL鏈接
url:另一個(gè)url
1
2
3
|
from urllib.parse import urljoin a = urljoin( 'http://www.cwi.nl/%7Eguido/Python.html' , 'FAQ.html' ) print (a) |
結(jié)果:http://www.cwi.nl/%7Eguido/FAQ.html
這個(gè)函數(shù)在爬蟲的時(shí)候應(yīng)該方便多了,我之前用的是比較笨的方法直接字符串拼接
3、異常處理 urllib.error
用 try-except來捕捉異常
主要的錯(cuò)誤方式就兩種 URLError和HTTPError
因?yàn)镠TTPError是URLError的子類,所以URLError應(yīng)該寫在HttpError后面,說白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。
1
2
3
4
5
6
7
|
try : data = urllib.request.urlopen(url) print (data.read().decode( 'utf-8' )) except urllib.error.HTTPError as e: print (e.code) except urllib.error.URLError as e: print (e.reason) |
結(jié)果:[WinError 10060] 由于連接方在一段時(shí)間后沒有正確答復(fù)或連接的主機(jī)沒有反應(yīng),連接嘗試失敗。
如果捕獲到了HTTPError,則輸出code,不會再處理URLError異常。如果發(fā)生的不是HTTPError,則會去捕獲URLError異常,輸出錯(cuò)誤原因