一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - 用Python程序抓取網頁的HTML信息的一個小實例

用Python程序抓取網頁的HTML信息的一個小實例

2020-06-20 10:11cyqian Python

這篇文章主要介紹了用Python程序抓取網頁的HTML信息的一個小實例,用到的方法同時也是用Python編寫爬蟲的基礎,需要的朋友可以參考下

抓取網頁數據的思路有好多種,一般有:直接代碼請求http、模擬瀏覽器請求數據(通常需要登錄驗證)、控制瀏覽器實現數據抓取等。這篇不考慮復雜情況,放一個讀取簡單網頁數據的小例子:
目標數據

將ittf網站上這個頁面上所有這些選手的超鏈接保存下來。

用Python程序抓取網頁的HTML信息的一個小實例

數據請求

真的很喜歡符合人類思維的庫,比如requests,如果是要直接拿網頁文本,一句話搞定:

?
1
doc = requests.get(url).text

解析html獲得數據

以beautifulsoup為例,包含獲取標簽、鏈接,以及根據html層次結構遍歷等方法。參考見這里。下面這個片段,從ittf網站上獲取指定頁面上指定位置的鏈接。

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
url = 'http://www.ittf.com/ittf_ranking/WR_Table_3_A2.asp?Age_category_1=&Age_category_2=&Age_category_3=&Age_category_4=&Age_category_5=&Category=100W&Cont=&Country=&Gender=W&Month1=4&Year1=2015&s_Player_Name=&Formv_WR_Table_3_Page='+str(page)
doc = requests.get(url).text
soup = BeautifulSoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'
 
mlfile = open(linkfile,'a')
for atag in atags:
  #print atag
  if atag!=None and atag.get('href') != None:
    if "WR_Table_3_A2_Details.asp" in atag['href']:
      link = rank_link_pre + atag['href']
      links.append(link)
      mlfile.write(link+'\n')
      print 'fetch link: '+link
mlfile.close()

 

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日韩精品免费一区二区 | 精品在线网站 | 亚洲一区二区福利视频 | 99re在线视频免费观看 | 亚洲天堂男人的天堂 | 9re视频这里只有精品 | 久久青青草原综合伊人 | 男人和女人日 | 午夜伦伦电影理论片费看 | 国产高清一区二区三区免费视频 | 久久无码人妻中文国产 | 天天爱天天操天天射 | 免费毛片 | chinese国产打屁股 | 国产精品亚洲精品日韩已方 | 女女同性做爰xxoo亲吻 | 色综合国产 | 欧美日韩一级视频 | 亚洲国产中文字幕在线视频综合 | 日韩网站在线观看 | 草莓视频在线免费观看 | 好大好爽好舒服视频 | 久久亚洲精品成人 | 高h孕交| 亚洲成在人网站天堂一区二区 | 小早川怜子息梦精在线播放 | 精品国产自在现线拍国语 | 亚洲午夜久久久久久91 | 特黄未满14周岁毛片 | 四虎综合九九色九九综合色 | 日本韩国在线 | 女女同性做爰xxoo亲吻 | 免费叼嘿视频 | 日本xxxxn1819 | 色色色资源站 | 男人操女人动图 | 成人在线视频国产 | 欧美一级精品 | 91东航翘臀女神在线播放 | 2021国产麻豆剧传媒剧情最新 | 国产免费小视频在线观看 |