一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - python爬取哈爾濱天氣信息

python爬取哈爾濱天氣信息

2021-03-17 00:10小嘉欣 Python

這篇文章主要為大家詳細介紹了python爬蟲抓取哈爾濱天氣信息,具有一定的參考價值,感興趣的小伙伴們可以參考一下

本文實例為大家分享了python爬取哈爾濱天氣信息的具體代碼,供大家參考,具體內容如下

環境:

windows7

python3.4(pip install requests;pip install BeautifulSoup4)

代碼: (親測可以正確執行)

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
# coding:utf-8
"""
總結一下,從網頁上抓取內容大致分3步:
1、模擬瀏覽器訪問,獲取html源代碼
2、通過正則匹配,獲取指定標簽中的內容
3、將獲取到的內容寫到文件中
"""
import requests # 用來抓取網頁的html源代碼
import csv # 將數據寫入到csv文件中
import random # 取隨機數
import time # 時間相關操作
import socket # 用于異常處理
import http.client # 用于異常處理
from bs4 import BeautifulSoup # 用來代替正則式取源碼中相應標簽中的內容
 
 
# 獲取網頁中的html代碼
def get_content(url, data=None):
  header = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  }
  timeout = random.choice(range(80, 180)) # timeout是設定的一個超時時間,取隨機數是因為防止被網站認定為網絡爬蟲
  while True:
    try:
      rep = requests.get(url, headers=header, timeout=timeout)
      rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是將源代碼的編碼格式改為utf-8
      break
    except socket.timeout as e:
      print('3:', e)
      time.sleep(random.choice(range(8, 15)))
 
    except socket.error as e:
      print('4:', e)
      time.sleep(random.choice(range(20, 60)))
 
    except http.client.BadStatusLine as e:
      print('5:', e)
      time.sleep(random.choice(range(30, 80)))
 
    except http.client.IncompleteRead as e:
      print('6:', e)
      time.sleep(random.choice(range(5, 15)))
 
  return rep.text
 
 
# 獲取html中我們所需要的字段
def get_data(html_text):
  final = []
  bs = BeautifulSoup(html_text, "html.parser") # 創建BeautifulSoup對象
  body = bs.body # 獲取body部分
  data = body.find('div', {'id': '7d'}) # 找到id為7d的div
  ul = data.find('ul') # 獲取ul部分
  li = ul.find_all('li') # 獲取所有的li
 
  for day in li: # 對每個li標簽中的內容進行遍歷
    temp = []
    date = day.find('h1').string # 找到日期
    temp.append(date) # 添加到temp中
    inf = day.find_all('p') # 找到li中的所有p標簽
    temp.append(inf[0].string, ) # 第一個p標簽中的內容(天氣狀況)加到temp中
    if inf[1].find('span') is None:
      temperature_highest = None # 天氣預報可能沒有當天的最高氣溫(到了傍晚,就是這樣),需要加個判斷語句,來輸出最低氣溫
    else:
      temperature_highest = inf[1].find('span').string # 找到最高溫
      temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網站會變,最高溫度后面也有個℃
    temperature_lowest = inf[1].find('i').string # 找到最低溫
    temperature_lowest = temperature_lowest.replace('℃', '') # 最低溫度后面有個℃,去掉這個符號
    temp.append(temperature_highest) # 將最高溫添加到temp中
    temp.append(temperature_lowest) # 將最低溫添加到temp中
    final.append(temp) # 將temp加到final中
 
  return final
 
 
# 寫入文件csv
def write_data(data, name):
  file_name = name
  with open(file_name, 'a', errors='ignore', newline='') as f:
    f_csv = csv.writer(f)
    f_csv.writerows(data)
 
 
if __name__ == '__main__':
  url = 'http://www.weather.com.cn/weather/101050101.shtml'
  html = get_content(url)
  result = get_data(html)
  write_data(result, 'weather.csv')

講解:

python標準庫-----內置函數open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函數作用:打開一個文件并返回文件對象。如果文件不能打開,拋出異常OSError。

file:是一個字符串的文件名稱,或者是一個數組表示的文件名稱。文件名稱可以是相對當前目錄的路徑,也可以是絕對路徑表示。

mode:是指打開文件的模式。

  1)‘r'表示打開文件只讀,不能寫。

  2)‘w'表示打開文件只寫,并且清空文件。

  3)‘x'表示獨占打開文件,如果文件已經存打開就會失敗。

  4)‘a'表示打開文件寫,不清空文件,在文件后尾追加的方式寫入。

  5)‘b'表示二進制的模式打開文件。

  6)‘t'表示文本模式,默認情況下就是這種模式。

  7)‘+'打開文件更新(讀取或寫入)。

  8)缺省時的模式就相當于'rt'。比如'w+b'就是打開文件進入讀寫,把文件清空;'r+b'打開文件,但不把文件  清空。

參數buffering是一個可選的參數,用來表示緩沖區的策略選擇。設置為0時,表示不使用緩沖區,直接讀寫,僅在二進制模式下有效。設置為1時,表示在文本模式下使用行緩沖區方式。設置為大于1時,表示緩沖區的設置大小。如果參數buffering沒有給出,使用默認時,會采用下面策略來選擇:

1)對于二進制文件模式時,采用固定塊內存緩沖區方式,內存塊的大小根據系統設備的分配的磁盤塊來決定,如果獲取系統磁盤塊的大小失敗,就使用內部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的操作系統上,塊的大小是4096或者8192字節大小。

2)對于交互的文本文件(采用isatty()判斷為True)時,采用一行緩沖區的方式。其它文本文件使用跟二進制一樣的方式。

參數encoding是指明對文件編碼,僅適用于文本文件。如果不明編碼方式,默認是使用locale.getpreferredencoding()函數返回的編碼方式。

參數errors是用來指明編碼和解碼錯誤時怎么樣處理。不能在二進制的模式下使用。

1)當指明為'strict'時,編碼出錯則拋出異常ValueError。

2)當指明為'ignore'時,忽略錯誤。

3)當指明為'replace'時,使用某字符進行替代模式,比如使用'?'來替換出錯的。

4)其它相應還有surrogateescape/xmlcharrefreplacs/backslashreplace。

參數newline是用來控制文本模式之下,一行的結束字符。可以是None,'',\n,\r,\r\n等。

1)當在讀取模式下,如果新行符為None,那么就作為通用換行符模式工作,意思就是說當遇到\n,\r或\r\n都可以作為換行標識,并且統一轉換為\n作為文本輸入的換行符。當設置為空''時,也是通用換行符模式工作,但不作轉換為\n,輸入什么樣的,就保持原樣全輸入。當設置為其它相應字符時,就會判斷到相應的字符作為換行符,并保持原樣輸入到文本。

2)當在輸出模式時,如果新行符為None,那么所有輸出文本都是采用\n作為換行符。如果設置為''或者\n時,不作任何的替換動作。如果是其它字符,會在字符后面添加\n作為換行符。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。

原文鏈接:https://www.cnblogs.com/sunshine-blog/p/9292875.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 亚洲午夜精品久久久久久人妖 | 亚洲精品成人AV在线观看爽翻 | 亚洲国产日韩制服在线观看 | 精品国产麻豆AV无码 | 日本激情在线 | 美女被吸乳得到大胸 | 亚洲福利电影一区二区? | 日日爽日日操 | 日本伊人色 | 久久人妻熟女中文字幕AV蜜芽 | 成人免费一区二区三区在线观看 | 色小妹在线 | 毛片免费的 | 91免费精品国自产拍在线不卡 | 99视频全部免费 | 四虎麻豆国产精品 | 91传媒制片厂果冻有限公司 | 免费毛片| 白丝爆动漫羞羞动漫网站 | 成人在线免费观看视频 | 亚洲va韩国va欧美va天堂 | 欧美一区二区三区gg高清影视 | 特黄未满14周岁毛片 | 欧美大美bbb和大白屁股 | 亚洲va天堂va国产va久久 | 久久一本岛在免费线观看2020 | 91制片厂(果冻传媒)原档破解 | 五月婷婷俺也去开心 | 99爱在线观看精品视频 | 国产精品视频一区二区三区经 | 美女被扣逼 | ts视频在线观看 | 白丝捆绑vk | 翁熄性放纵交换300章 | 美女撒尿无遮挡免费中国 | 成人毛片高清视频观看 | 国产91素人搭讪系列天堂 | 日韩在线一区二区三区免费视频 | 国产欧美一区二区精品久久久 | 天堂日韩 | 93版高校教师 |