剛寫了一篇文回憶了新站長們優化過程中容易犯下的小錯誤,中間提到了robots.txt機器人協議,不禁就想跟大家討論一下robots.txt機器人協議的使用技巧。網站優化是個長期的工作,同時也是一個互動的工作,閉門造車的站長不會是一個好站長,所以希望大家能多多交流。不足之處,請斧正。
廢話不多說,咱們開始進入正題。robots.txt機器人協議大家都知道是為了規范蜘蛛爬行而設定的,大家一般會在其中常規性的禁止蜘蛛爬行data、tmp這些目錄,也會禁止其爬行會員、訂單、庫存等等模塊。但除了這些常規用法之外,robots.txt機器人協議對我們優化工作其實,還有很多小技巧可以配合使用,讓我們的網站優化工作更好進行。
一、通過禁止爬行動態頁或某些頁面,減少重復收錄
首先就是很多人都知道的禁止蜘蛛爬行動態頁,減少整個網站的重復收錄問題。好處就是利于整個網站內容頁面的權重集中,不容易因為重復收錄導致內容頁面權重分散等等。這是這個技巧對與常規網站的一般意義,但是對于商城站、資訊站、問答站等大型網站,這種規范意義卻是十分大的。
1、商城、B2B等大型網站條件過濾頁
在商城、B2B等大型網站中,常常會涉及到條件過濾的問題,即通過刪選產品的規格、品牌等會出現大量相似頁面。假如這個問題不能有效解決就會造成網站大量相似內容被重復收錄等等,一般而言這種問題可以通過運用應針對行的進行一些URL屏蔽工作,或者考慮采用ajax形式。但效果而言,沒有直接使用robots.txt機器人協議效果好,推薦還是在URL靜態化規則做好的基礎上通過robots.txt禁止抓取動態頁面來進行處理。
2、資訊站評論頁面
資訊站頁面評論跟條件過濾頁相似,也需要通過robots.txt配合URL規則設置屏蔽掉動態頁面,防止重復收錄等問題。
3、其他類似情況
在B2B、招聘、威客網站當中也會有類似的問題,這些情況都可以使用robots.txt來有效的規范蜘蛛爬行,從而規避重復收錄等等。
二、誘導蜘蛛爬行重要頁面,提高蜘蛛爬行效率
這個小技巧主要是配合網站地圖和聚合頁標簽使用,為的是給這些重要頁面提供更多入口方便蜘蛛爬行。網站地圖、聚合頁標簽偽裝的列表頁等等是蜘蛛爬行最為快捷方便的地方,通過robots.txt協議中Allow命令的使用,讓蜘蛛優先爬行這些頁面,自然收錄情況也就更好。
三、調整網站權重分配
通過robots.txt協議可以有效的調整網站的整體權重,配合nofflow標簽等使用將權重導向網站的重點欄目或者重點頁面,達到合理分配整站權重的作用。
四、擦邊球做法
在提高網站相關度的一種首發中,就是利用robots.txt協議。其在根目錄中防置大量的TXT文檔,在TXT文檔中嵌入大批量的關鍵詞,然后通過robots.txt誘導蜘蛛去爬行這些目錄。當然這里不是讓大家也這么做,畢竟黑帽手段不長久,咱們說的是安全的小技巧。
這里不知道有沒有站長的網站被掛馬過,特別是被寄生蟲肆虐過的站長更是很悲憤吧。不過咱們換個思路看,寄生蟲這種方法,也未嘗不是我們做網頁收錄的一個好辦法。即通過設計一些頁面模版,然后通過程序批量生成大量頁面,將這些頁面按照規則放置到對應的新目錄中,通過robots.txt誘導蜘蛛爬行,收錄效果也很不錯。當然,這種手段做的話,頁面模版必須做的很優秀才可以,不然將會很大的影響用戶體驗,希望站長們注意。
PS:如果您不懂怎么寫robots.txt文件,可以選擇站長工具網的在線生成工具:https://tool.zzvips.com/t/robots/