www.日本在线,国产一级精品毛片,青青青爽国产在线视频

本文實例為大家分享了python 爬取哈爾濱天氣信息的具體代碼，供大家參考，具體內容如下

環境：

windows7

python3.4（pip install requests；pip install BeautifulSoup4）

代碼： （親測可以正確執行）

									# coding:utf-8

									"""

									總結一下，從網頁上抓取內容大致分3步：

									1、模擬瀏覽器訪問，獲取html源代碼

									2、通過正則匹配，獲取指定標簽中的內容

									3、將獲取到的內容寫到文件中

									"""

									import requests # 用來抓取網頁的html源代碼

									import csv # 將數據寫入到csv文件中

									import random # 取隨機數

									import time # 時間相關操作

									import socket # 用于異常處理

									import http.client # 用于異常處理

									from bs4 import BeautifulSoup # 用來代替正則式取源碼中相應標簽中的內容

									# 獲取網頁中的html代碼

									def get_content(url, data=None):

									  header = {

									    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

									    'Accept-Encoding': 'gzip, deflate',

									    'Accept-Language': 'zh-CN,zh;q=0.9',

									    'Connection': 'keep-alive',

									    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

									  }

									  timeout = random.choice(range(80, 180)) # timeout是設定的一個超時時間，取隨機數是因為防止被網站認定為網絡爬蟲

									  while True:

									    try:

									      rep = requests.get(url, headers=header, timeout=timeout)

									      rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是將源代碼的編碼格式改為utf-8

									      break

									    except socket.timeout as e:

									      print('3:', e)

									      time.sleep(random.choice(range(8, 15)))

									    except socket.error as e:

									      print('4:', e)

									      time.sleep(random.choice(range(20, 60)))

									    except http.client.BadStatusLine as e:

									      print('5:', e)

									      time.sleep(random.choice(range(30, 80)))

									    except http.client.IncompleteRead as e:

									      print('6:', e)

									      time.sleep(random.choice(range(5, 15)))

									  return rep.text

									# 獲取html中我們所需要的字段

									def get_data(html_text):

									  final = []

									  bs = BeautifulSoup(html_text, "html.parser") # 創建BeautifulSoup對象

									  body = bs.body # 獲取body部分

									  data = body.find('div', {'id': '7d'}) # 找到id為7d的div

									  ul = data.find('ul') # 獲取ul部分

									  li = ul.find_all('li') # 獲取所有的li

									  for day in li: # 對每個li標簽中的內容進行遍歷

									    temp = []

									    date = day.find('h1').string # 找到日期

									    temp.append(date) # 添加到temp中

									    inf = day.find_all('p') # 找到li中的所有p標簽

									    temp.append(inf[0].string, ) # 第一個p標簽中的內容（天氣狀況）加到temp中

									    if inf[1].find('span') is None:

									      temperature_highest = None # 天氣預報可能沒有當天的最高氣溫（到了傍晚，就是這樣），需要加個判斷語句,來輸出最低氣溫

									    else:

									      temperature_highest = inf[1].find('span').string # 找到最高溫

									      temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網站會變，最高溫度后面也有個℃

									    temperature_lowest = inf[1].find('i').string # 找到最低溫

									    temperature_lowest = temperature_lowest.replace('℃', '') # 最低溫度后面有個℃，去掉這個符號

									    temp.append(temperature_highest) # 將最高溫添加到temp中

									    temp.append(temperature_lowest) # 將最低溫添加到temp中

									    final.append(temp) # 將temp加到final中

									  return final

									# 寫入文件csv

									def write_data(data, name):

									  file_name = name

									  with open(file_name, 'a', errors='ignore', newline='') as f:

									    f_csv = csv.writer(f)

									    f_csv.writerows(data)

									if __name__ == '__main__':

									  url = 'http://www.weather.com.cn/weather/101050101.shtml'

									  html = get_content(url)

									  result = get_data(html)

									  write_data(result, 'weather.csv')

講解：

python標準庫-----內置函數open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函數作用：打開一個文件并返回文件對象。如果文件不能打開，拋出異常OSError。

file：是一個字符串的文件名稱，或者是一個數組表示的文件名稱。文件名稱可以是相對當前目錄的路徑，也可以是絕對路徑表示。

mode：是指打開文件的模式。

1）‘r'表示打開文件只讀，不能寫。

2）‘w'表示打開文件只寫，并且清空文件。

3）‘x'表示獨占打開文件，如果文件已經存打開就會失敗。

4）‘a'表示打開文件寫，不清空文件，在文件后尾追加的方式寫入。

5）‘b'表示二進制的模式打開文件。

6）‘t'表示文本模式，默認情況下就是這種模式。

7）‘+'打開文件更新（讀取或寫入）。

8）缺省時的模式就相當于'rt'。比如'w+b'就是打開文件進入讀寫，把文件清空；'r+b'打開文件，但不把文件清空。

參數buffering是一個可選的參數，用來表示緩沖區的策略選擇。設置為0時，表示不使用緩沖區，直接讀寫，僅在二進制模式下有效。設置為1時，表示在文本模式下使用行緩沖區方式。設置為大于1時，表示緩沖區的設置大小。如果參數buffering沒有給出，使用默認時，會采用下面策略來選擇：

1）對于二進制文件模式時，采用固定塊內存緩沖區方式，內存塊的大小根據系統設備的分配的磁盤塊來決定，如果獲取系統磁盤塊的大小失敗，就使用內部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的操作系統上，塊的大小是4096或者8192字節大小。

2）對于交互的文本文件（采用isatty()判斷為True）時，采用一行緩沖區的方式。其它文本文件使用跟二進制一樣的方式。

參數encoding是指明對文件編碼，僅適用于文本文件。如果不明編碼方式，默認是使用locale.getpreferredencoding()函數返回的編碼方式。

參數errors是用來指明編碼和解碼錯誤時怎么樣處理。不能在二進制的模式下使用。

1）當指明為'strict'時，編碼出錯則拋出異常ValueError。

2）當指明為'ignore'時，忽略錯誤。

3）當指明為'replace'時，使用某字符進行替代模式，比如使用'?'來替換出錯的。

4）其它相應還有surrogateescape/xmlcharrefreplacs/backslashreplace。

參數newline是用來控制文本模式之下，一行的結束字符。可以是None，''，\n，\r，\r\n等。

1）當在讀取模式下，如果新行符為None，那么就作為通用換行符模式工作，意思就是說當遇到\n，\r或\r\n都可以作為換行標識，并且統一轉換為\n作為文本輸入的換行符。當設置為空''時，也是通用換行符模式工作，但不作轉換為\n，輸入什么樣的，就保持原樣全輸入。當設置為其它相應字符時，就會判斷到相應的字符作為換行符，并保持原樣輸入到文本。

2）當在輸出模式時，如果新行符為None，那么所有輸出文本都是采用\n作為換行符。如果設置為''或者\n時，不作任何的替換動作。如果是其它字符，會在字符后面添加\n作為換行符。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持服務器之家。

原文鏈接：https://www.cnblogs.com/sunshine-blog/p/9292875.html