帶你了解什么是百度蜘蛛
1、搜索引擎抓取程序:蜘蛛
搜索引擎為了可以自動抓取互聯(lián)網(wǎng)上面數(shù)以萬計的網(wǎng)頁,必須有一個全自動的頁面抓取程序。而這個程序我們一般稱之為“蜘蛛”(也可以叫做“機器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般稱為百度蜘蛛。
谷歌的抓取程序,一般稱為谷歌機器人。
360的抓取程序,一般稱為360蜘蛛。
其實,不管叫做蜘蛛,還是機器人,你只要知道這個指的是搜索引擎的抓取程序,就可以了。蜘蛛的任務很簡單,就是順著鏈接不斷的抓取互聯(lián)網(wǎng)上,自己還沒有收錄過的網(wǎng)頁和鏈接,然后將抓取到的網(wǎng)頁信息和鏈接信息存儲到自己的網(wǎng)頁數(shù)據(jù)庫中。而這些抓取到的網(wǎng)頁,將有機會出現(xiàn)在最終的搜索結果中。
2、怎么讓蜘蛛來抓取我們的網(wǎng)站
通過上面對蜘蛛的解釋,我們能夠知道:要想自己的頁面最終出現(xiàn)在搜索結果中,首先得讓蜘蛛抓取到我們的網(wǎng)站。通過下面三種方法可以讓蜘蛛來抓取我們的網(wǎng)站
外部鏈接:我們可以在一些已經被搜索引擎收錄的網(wǎng)站上面發(fā)布自己網(wǎng)站的鏈接,以此吸引蜘蛛,或者交換友情鏈接也是一個常用的方法。
提交鏈接:百度為站長們提供了鏈接提交的工具,通過這個工具,我們只需要通過這個工具提交給百度,那么百度就會派出蜘蛛來抓取我們網(wǎng)頁了。
蜘蛛自己來抓。喝绻阆M┲肽軌蚨ㄆ谥鲃觼碜约旱木W(wǎng)站抓取網(wǎng)頁,那么你就必須提供優(yōu)質的網(wǎng)站內容。只有蜘蛛發(fā)現(xiàn)你的網(wǎng)站的內容質量很好,那么蜘蛛就會特別關照你的網(wǎng)站,定時會來你的網(wǎng)站看看是不是新的內容產生。如何才能夠確保自己的網(wǎng)站能夠提供優(yōu)勢的內容,這個話題我們在之后的章節(jié)再做闡述。
3、怎么知道蜘蛛來過我們網(wǎng)站
通過下面2個方式可以知道蜘蛛是否來過我們的網(wǎng)站。
。1)百度抓取頻次工具
該工具網(wǎng)址為:
。2)服務器IIS日志
如果你的服務器開啟了IIS日志功能,那么也可以通過IIS日志文件看到蜘蛛來過的痕跡。通過IIS日志我們可以發(fā)現(xiàn)百度蜘蛛抓取我們那些頁面。
4、影響蜘蛛抓取的因素
好了,我們知道了網(wǎng)站想要有排名,第一步就是必須能夠被蜘蛛抓取到。那么那些因素有可能造成蜘蛛無法正常抓取我們網(wǎng)頁呢,我們應該注意下面幾個要點:
。1)網(wǎng)址不能過長:百度建議網(wǎng)址的長度不要超過256個字節(jié)(一個英文字母(不分大小寫))占一個字節(jié)的空間,一個中文漢字占兩個字節(jié)的空間)。
。2)網(wǎng)址中不要包含中文:百度對于中文網(wǎng)址的抓取效果都是比較差的,所以在網(wǎng)址內千萬不要帶有中文。
。3)服務器問題:如果你的服務器質量太差,總是打不開,那么也會影響蜘蛛的抓取效果。
。4)Robots.txt屏蔽:有的SEO人員由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路徑或者頁面。這也會影響到百度對于我們網(wǎng)站的抓取效果。
。5)避免出現(xiàn)蜘蛛難以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html這種URL蜘蛛無法理解會放棄抓取。
。6)注意動態(tài)參數(shù)不要太多太復雜,目前百度對動態(tài)URL已經有了很好的處理,但是參數(shù)過多且復雜的url有可能被蜘蛛認為不重要而拋棄。這點尤為重要,一定注意。