一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python使用Selenium自動進行百度搜索的實現

Python使用Selenium自動進行百度搜索的實現

2021-12-13 10:35測試baby Python

我們今天介紹一個非常適合新手的python自動化小項目,這個例子非常適合新手學習Python網絡自動化,不僅能夠了解如何使用Selenium,而且還能知道一些超級好用的小工具。感興趣的可以了解一下

我們今天介紹一個非常適合新手的python自動化小項目,項目雖小,但是五臟俱全。它是一個自動化操作網頁瀏覽器的小應用:打開瀏覽器,進入百度網頁,搜索關鍵詞,最后把搜索結果保存到一個文件里。這個例子非常適合新手學習Python網絡自動化,不僅能夠了解如何使用Selenium,而且還能知道一些超級好用的小工具。

當然有人把操作網頁,然后把網頁的關鍵內容保存下來的應用一律稱作網絡爬蟲,好吧,如果你想這么爬取內容,隨你。但是,我更愿意稱它為網絡機器人。

我今天介紹的項目使用Selenium,Selenium 是支持 web 瀏覽器自動化的一系列工具和庫的綜合項目。Selenium 的核心是 WebDriver,這是一個編寫指令集的接口,可以在許多瀏覽器中互換運行。

閑言少敘,硬貨安排。

 

安裝 Selenium

可以使用 pip 安裝 Python 的 Selenium 庫:pip install selenium

(可選項:要執行項目并控制瀏覽器,需要安裝特定于瀏覽器的 WebDriver 二進制文件。

下載 WebDriver 二進制文件 并放入 系統 PATH 環境變量 中.)

由于本地瀏覽器版本升級,引起的版本不一致問題,和系統PATH環境變量的設置比較繁瑣,所以我使用webdriver_manager,

安裝 Install manager:

pip install webdriver-manager

 

寫代碼

引入模塊:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

首先我們定義一個類Search_Baidu, 它主要用于初始化;定義自動化步驟的方法;結束關閉瀏覽器。

class Search_Baidu:
def __init__(self):
def search(self, keyword):
def tear_down(self):

接下來我們分別介紹每個方法的實現過程。

   def __init__(self): #類構造函數,用于初始化selenium的webdriver
        url = "https://www.baidu.com/" #這里定義訪問的網絡地址
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加載圖片,加快訪問速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步驟很重要,設置為開發者模式,防止被各大網站識別出來使用了Selenium
# 這里使用chrome瀏覽器,而且使用我們剛才安裝的webdriver_manager的chrome driver,并賦值上面的瀏覽器設置options變量
        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超時時長為10s,由于自動化需要等待網頁控件的加載,所以這里設置一個默認的等待超時,時長為10秒

    def tear_down(self):
        self.browser.close() #最后,關閉瀏覽器

接下來是重頭戲,寫我們操作瀏覽器的步驟,打開瀏覽器,進入百度網頁,輸入搜索關鍵字:Selenium,等待搜索結果,把搜索結果的題目和網址保存到文件里。

def search(self, keyword):
    # 打開百度網頁
    self.browser.get(self.url)
    # 等待搜索框出現,最多等待10秒,否則報超時錯誤
    search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
    # 在搜索框輸入搜索的關鍵字
    search_input.send_keys(keyword)
    # 回車
    search_input.send_keys(Keys.ENTER)
    # 等待10秒鐘
    self.browser.implicitly_wait(10)
    # 找到所有的搜索結果
    results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
    # 遍歷所有的搜索結果
    with open("search_result.txt","w") as file:            
        for result in results:
            if result.get_attribute("href"):
                print(result.get_attribute("text").strip())
                # 搜索結果的標題
                # 搜索結果的網址
                link = result.get_attribute("href")
                # 寫入文件
                file.write(f"Title: {title}, link is: {link} 
")

 

點位網頁元素

這里頭有個關鍵點,就是如何點位網頁元素:

比如:

search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))

還有:

self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

打個比方,快遞員通過地址找到你家,給你送快遞,這里的XPATH和CSS Selector就是網頁元素的地址,那么如何得到呢?
第一個就是Chrome自帶的開發者工具,可以快捷鍵F12,也可以自己在下圖中找到:

Python使用Selenium自動進行百度搜索的實現

然后在百度搜索框,右鍵:

Python使用Selenium自動進行百度搜索的實現

找到輸入框的HTML元素,

Python使用Selenium自動進行百度搜索的實現

在HTML元素右鍵,拷貝XPath地址。

Python使用Selenium自動進行百度搜索的實現

這是比較簡單的定位網頁元素的方法。接下來我們定位搜索結果元素的時候,就遇到了麻煩,如下圖:

Python使用Selenium自動進行百度搜索的實現

我們不能單獨的定位每個元素,而是要找到規律,一次把所有的搜索結果找到,然后返回一個list,我們好遍歷這個list,這個怎么實現呢?

接下來,我們請出一大神器:SelectorGadget

Python使用Selenium自動進行百度搜索的實現

SelectorGadget是一個CSS Selector生成器,大家可以在他的官方文檔找到具體的使用說明,我這里簡單介紹一下:
首先啟動SelectorGadget,點擊一下圖標

Python使用Selenium自動進行百度搜索的實現

瀏覽器會出現下面的框框:

Python使用Selenium自動進行百度搜索的實現

然后我們在網頁用鼠標左鍵,點擊我們要定位的元素

Python使用Selenium自動進行百度搜索的實現

然后頁面會變成下面的樣子:

Python使用Selenium自動進行百度搜索的實現

所有黃色的部分說明都被選擇了,如果我們不想要的元素,右鍵點擊,使它變為紅色,說明它被去掉了。如果沒有被選擇我們又需要的元素,我們左鍵選擇它,使它變為綠色。最后我們希望選擇的頁面元素都變成了綠色或者黃色,如下圖:

Python使用Selenium自動進行百度搜索的實現

我們就可以拷貝框框里的內容作為CSS Selector了。

Python使用Selenium自動進行百度搜索的實現

通過CSS Selector找到所有的搜索結果。

results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

到此,我們就實現了這么個簡單的小應用了,其實selenium就是幫助我們自動操作網頁元素,所以我們定位網頁元素就是重中之重,希望本文給你帶來一點幫助。

下面我附上代碼:

from datetime import time
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

class Search_Baidu:
    def __init__(self):
        url = "https://www.baidu.com/"
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加載圖片,加快訪問速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步驟很重要,設置為開發者模式,防止被各大網站識別出來使用了Selenium

        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超時時長為10s

    def search(self, keyword):
        # 打開百度網頁
        self.browser.get(self.url)
        # 等待搜索框出現,最多等待10秒,否則報超時錯誤
        search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
        # 在搜索框輸入搜索的關鍵字
        search_input.send_keys(keyword)
        # 回車
        search_input.send_keys(Keys.ENTER)
        # 等待10秒鐘
        self.browser.implicitly_wait(10)
        # 找到所有的搜索結果
        results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
        # 遍歷所有的搜索結果
        with open("search_result.txt","w") as file:            
            for result in results:
                if result.get_attribute("href"):
                    print(result.get_attribute("text").strip())
                    # 搜索結果的標題
                    # 搜索結果的網址
                    link = result.get_attribute("href")
                    # 寫入文件
                    file.write(f"Title: {title}, link is: {link} 
")

    def tear_down(self):
        self.browser.close()

if __name__ == "__main__":
    search = Search_Baidu()
    search.search("selenium")
    search.tear_down()

到此這篇關于Python使用Selenium自動進行百度搜索的實現的文章就介紹到這了,更多相關Python Selenium自動百度搜索內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!

原文鏈接:https://blog.csdn.net/m0_56736369/article/details/118578407

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 午夜第九达达兔鲁鲁 | bl放荡受np双性 | 美女在尿口隐私视频 | 国产精品区牛牛影院 | 青柠在线完整高清观看免费 | 国产成人a∨麻豆精品 | 日日综合 | 九九国产在线视频 | 亚洲AV蜜桃永久无码精品红樱桃 | 操娇妻 | 黑人巨大精品战中国美女 | 日日操日日 | 午夜久久久久久网站 | 男生和女生艹逼 | 日日骑夜夜骑 | 大伊人青草狠狠久久 | 99精品观看 | 午夜国产小视频 | 日本xxx在线观看免费播放 | 日本中文字幕在线精品 | 国产福利片在线 | 国产一区二区视频在线播放 | 波多野结衣在线中文字幕 | 久久毛片视频 | 欧美国产日本精品一区二区三区 | 99 久久99久久精品免观看 | 狠狠干狠狠插 | 国产丰满美女做爰 | 九九精品视频在线免费观看 | 男男playh片在线观看 | 日本中文字幕永久在线 | 日韩hd高清xxxⅹ | 国产三级精品久久三级国专区 | 青草园网站在线观看 | 性趣味商品推荐 | 国产巨大bbbb俄罗斯 | 999精品视频在线观看 | 欧美人shou交在线播放 | 免费观看视频网站 | 欧美ggg666| 狠狠色综合久久婷婷色天使 |