一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python3 實現爬取網站下所有URL方式

Python3 實現爬取網站下所有URL方式

2020-04-19 11:10嗨學編程 Python

今天小編就為大家分享一篇Python3 實現爬取網站下所有URL方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

獲取首頁元素信息:

目標 test_URL:http://www.xxx.com.cn/

首先檢查元素,a 標簽下是我們需要爬取得鏈接,通過獲取鏈接路徑,定位出我們需要的信息

?
1
2
soup = Bs4(reaponse.text, "lxml")
urls_li = soup.select("#mainmenu_top > div > div > ul > li")

首頁的URL鏈接獲取:

完成首頁的URL鏈接獲取,具體代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
'''
遇到不懂的問題?Python學習交流群:821460695滿足你的需求,資料都已經上傳群文件,可以自行下載!
'''
def get_first_url():
  list_href = []
  reaponse = requests.get("http://www.xxx.com.cn", headers=headers)
  soup = Bs4(reaponse.text, "lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  for reg in out_url:
    print(reg)

遍歷第一次返回的結果:

從第二步獲取URL的基礎上,遍歷請求每個頁面,獲取頁面中的URL鏈接,過濾掉不需要的信息

具體代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,headers=headers)
    soup = Bs4(response.text,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))

遞歸循環遍歷:

遞歸實現爬取所有url,在get_next_url()函數中調用自身,代碼如下:

?
1
get_next_url(url_list2)

全部代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
import requests
from bs4 import BeautifulSoup as Bs4
 
head_url = "http://www.xxx.com.cn"
headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
def get_first_url():
  list_href = []
  reaponse = requests.get(head_url, headers=headers)
  soup = Bs4(reaponse.text, "lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  return out_url
 
 
def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,headers=headers)
    soup = Bs4(response.text,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))
  get_next_url(url_list2)
 
 
if __name__ == "__main__":
  urllist = get_first_url()
  get_next_url(urllist)

以上這篇Python3 實現爬取網站下所有URL方式就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持服務器之家。

原文鏈接:https://blog.csdn.net/fei347795790/article/details/99471972

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日本tube24xxxxx | 亚洲国产中文字幕在线视频综合 | a在线观看欧美在线观看 | 国产精品1024永久免费视频 | 欧美一区二区三区不卡视频 | 波多野结衣黑人系列在线观看 | 毛片在线观看网站 | 亚洲精品国产综合久久一线 | 高清国产精品久久 | 九九99香蕉在线视频美国毛片 | 白发在线视频播放观看免费 | 亚洲首页国产精品丝袜 | 天堂资源在线www中文 | 暖暖 免费 高清 日本 在线 | 国产伦精品一区二区 | 国产欧美日韩精品一区二 | x8x8在线永久免费观看 | yy111111免费观看| gay男强壮军人chinese | 亚洲国产中文字幕在线视频综合 | 9色视频在线观看 | 国产精品福利 | boobsmilking流奶水野战 | 久久久这里有精品999 | 色综合天天综合 | 免费老外的毛片清高 | 欧美一区二区三区精品 | 国产欧美日韩在线不卡第一页 | 国产永久免费视频m3u8 | 九九精品免视看国产成人 | 大乳女子一级毛片 | 色菇凉天天综合网 | 国产精品一级片 | 精品网站一区二区三区网站 | www.麻豆视频| 无码人妻精品一区二区蜜桃在线看 | 五月色综合婷婷综合俺来也 | 99热国产这里只有精品99 | 短篇最污的乱淫伦小说全集 | 久久视频精品3线视频在线观看 | 日本在线国产 |