91免费版在线观看,国产精品人伦久久,手机在线黄色网址

urllib

urllib模塊是python3的URL處理包

其中：

1、urllib.request主要是打開和閱讀urls

個(gè)人平時(shí)主要用的1：

打開對應(yīng)的URL：urllib.request.open(url)

用urllib.request.build_opener([handler, ...])，來偽裝成對應(yīng)的瀏覽器

				?

									import urllib

									#要偽裝成的瀏覽器(我這個(gè)是用的chrome)

									headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')

									url='http://hotels.ctrip.com/'

									opener = urllib.request.build_opener()

									#將要偽裝成的瀏覽器添加到對應(yīng)的http頭部

									opener.addheaders=[headers]

									#讀取相應(yīng)的url

									data = opener.open(url).read()

									#將獲得的html解碼為utf-8

									data=data.decode('utf-8')

									print(data)

2、urllib.parse主要是用來解析url

主要方法：

urllib.parse.urlparse(urlstring)

功能：將對應(yīng)的URL解析成六部分，并以元組的數(shù)據(jù)格式返回來。(在功能上和urlsplit()幾乎一模一樣)

				?

									import urllib

									o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')

									print(o)

									print(o.path)

									print(o.scheme)

									print(o.port)

									print(o.geturl())

對應(yīng)的結(jié)果：

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、構(gòu)建一個(gè)新的url——urllib.parse.urljoin(base, url)

參數(shù)：base:基本的URL鏈接

url:另一個(gè)url

				?

									from urllib.parse import urljoin

									a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')

									print(a)

結(jié)果：http://www.cwi.nl/%7Eguido/FAQ.html

這個(gè)函數(shù)在爬蟲的時(shí)候應(yīng)該方便多了，我之前用的是比較笨的方法直接字符串拼接

3、異常處理 urllib.error

用 try-except來捕捉異常

主要的錯(cuò)誤方式就兩種 URLError和HTTPError

因?yàn)镠TTPError是URLError的子類，所以URLError應(yīng)該寫在HttpError后面,說白了就是找到兒子一定知道父親，找到父親，不一定知道兒子。

				?

									try:

									  data=urllib.request.urlopen(url)

									  print(data.read().decode('utf-8'))

									except urllib.error.HTTPError as e:

									  print(e.code)

									except urllib.error.URLError as e:

									  print(e.reason)