一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術(shù)及教程分享平臺!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲

python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲

2020-08-18 10:14mrmusic Python

本文給大家介紹的是利用urllib模塊通過指定的URL抓取網(wǎng)頁內(nèi)容 所謂網(wǎng)頁抓取,就是把URL地址中指定的網(wǎng)絡(luò)資源從網(wǎng)絡(luò)流中讀取出來,保存到本地,有需要的小伙伴可以參考下

urllib

urllib模塊是python3的URL處理包

其中:

1、urllib.request主要是打開和閱讀urls

個(gè)人平時(shí)主要用的1:

打開對應(yīng)的URL:urllib.request.open(url)

用urllib.request.build_opener([handler, ...]),來偽裝成對應(yīng)的瀏覽器

?
1
2
3
4
5
6
7
8
9
10
11
12
import urllib
#要偽裝成的瀏覽器(我這個(gè)是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#將要偽裝成的瀏覽器添加到對應(yīng)的http頭部
opener.addheaders=[headers]
#讀取相應(yīng)的url
data = opener.open(url).read()
#將獲得的html解碼為utf-8
data=data.decode('utf-8')
print(data)

2、urllib.parse主要是用來解析url

主要方法:

urllib.parse.urlparse(urlstring)

功能:將對應(yīng)的URL解析成六部分,并以元組的數(shù)據(jù)格式返回來。(在功能上和urlsplit()幾乎一模一樣)

?
1
2
3
4
5
6
7
import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

對應(yīng)的結(jié)果:

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html

2、構(gòu)建一個(gè)新的url——urllib.parse.urljoin(base, url)

參數(shù):base:基本的URL鏈接

   url:另一個(gè)url

?
1
2
3
from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

結(jié)果:http://www.cwi.nl/%7Eguido/FAQ.html

這個(gè)函數(shù)在爬蟲的時(shí)候應(yīng)該方便多了,我之前用的是比較笨的方法直接字符串拼接

3、異常處理 urllib.error

用 try-except來捕捉異常

主要的錯(cuò)誤方式就兩種 URLError和HTTPError

因?yàn)镠TTPError是URLError的子類,所以URLError應(yīng)該寫在HttpError后面,說白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。

?
1
2
3
4
5
6
7
try:
  data=urllib.request.urlopen(url)
  print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
  print(e.code)
except urllib.error.URLError as e:
  print(e.reason)

結(jié)果:[WinError 10060] 由于連接方在一段時(shí)間后沒有正確答復(fù)或連接的主機(jī)沒有反應(yīng),連接嘗試失敗。

如果捕獲到了HTTPError,則輸出code,不會再處理URLError異常。如果發(fā)生的不是HTTPError,則會去捕獲URLError異常,輸出錯(cuò)誤原因

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日韩欧美中文字幕一区 | 日韩欧美色 | 美女靠逼免费视频 | 国产绳艺在线播放 | 精品视频在线观看 | 潘金莲西门庆一级淫片aaaaaa | 日韩v | 小早川怜子在线播放精品 | 特级淫片大乳女子高清视频 | 日本一区二区不卡久久入口 | 日韩精品免费一区二区三区 | 明星h文集合短篇小说 | 国产免费专区 | fc2免费人成在线 | 欧美xxxxxbb| 奇米小说| 国产98在线 | 精品久久日日躁夜夜躁AV | 欧美日本一区视频免费 | 美女露尿口 | 五月一区二区久久综合天堂 | 乌克兰黄色录像 | 羞羞答答影院在线 | 欧美特级午夜一区二区三区 | 四虎884aa永久播放地址http | 秋葵视频成人 | 国产一卡2卡3卡四卡精品网 | 亚洲高清视频在线观看 | 亚洲天堂网2018 | 久9视频这里只有精品123 | 91频视 | 古装一级毛片 | 羞羞漫画免费漫画页面在线看漫画秋蝉 | v视界影院.vsjla | 国产农村乱子伦精品视频 | 男人天堂色男人 | 5g影院天天影院天天爽影院网站 | 99在线观看视频免费精品9 | 99精品久久久久久 | 密臀tv| 免费看黄色片网站 |