国产精品免费视频能看,四虎亚洲精品,91手机在线

一、選取網址進行爬蟲

本次我們選取pixabay圖片網站

1	`url=https://pixabay.com/`

Python3.x爬蟲下載網頁圖片的實例講解

二、選擇圖片右鍵選擇查看元素來尋找圖片鏈接的規則

Python3.x爬蟲下載網頁圖片的實例講解

通過查看多個圖片路徑我們發現取src路徑都含有 https://cdn.pixabay.com/photo/ 公共部分且圖片格式都為.jpg 因此正則表達式為

1	`re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$')`

通過以上的分析我們可以開始寫程序了

									#-*- coding:utf-8 -*-

									import re

									import requests

									import os

									from bs4 import beautifulsoup

									url = 'https://pixabay.com/'

									html = requests.get(url).text #獲取網頁內容

									print(html)

									# 這里由于有些圖片可能存在網址打不開的情況，加個5秒超時控制。

									#data-objurl="http://pic38.nipic.com/20140218/17995031_091821599000_2.jpg"獲取這種類型鏈接

									soup = beautifulsoup(html,'html.parser',from_encoding='utf-8')

									#^abc.*?qwe$

									pic_url = soup.find_all('img',src=re.compile(r'^https://cdn.pixabay.com/photo/.*?jpg$'))

									#pic_url = pic_node.get_text()

									#pic_url = re.findall('"https://cdn.pixabay.com/photo/""(.*?)",',html,re.s)

									print(pic_url)

									i = 0

									#判斷image文件夾是否存在，不存在則創建

									if not os.path.exists('image'):

									 os.makedirs('image')

									for url in pic_url:

									 img = url['src']

									 try:

									 pic = requests.get(img,timeout=5) #超時異常判斷 5秒超時

									 except requests.exceptions.connectionerror:

									 print('當前圖片無法下載')

									 continue

									 file_name = "image/"+str(i)+".jpg" #拼接圖片名

									 print(file_name)

									 #將圖片存入本地

									 fp = open(file_name,'wb')

									 fp.write(pic.content) #寫入圖片

									 fp.close()

									 i+=1