簡單理解,百度蜘蛛又名百度爬蟲,主要的工作職能是抓取互聯(lián)網(wǎng)上現(xiàn)有的URL,并對頁面質(zhì)量進行評估,給出基礎(chǔ)性的判斷。
Spider也就是大家常說的爬蟲、蜘蛛或機器人,是處于整個搜索引擎最上游的一個模塊,只有Spider抓回的頁面或URL才會被索引和參與排名。
搜索引擎“蜘蛛”指的是網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取信息的程序或者腳本。
①、高級蜘蛛。高級蜘蛛負責(zé)去爬行權(quán)重比較高的網(wǎng)站,高級蜘蛛有專門的權(quán)限,就是秒收。這就是為什么你去權(quán)重比較高的論壇發(fā)帖,會被搜索引擎直接秒收了。
內(nèi)容及時更新性:搜索引擎每天會定期更新爬行網(wǎng)站,如果搜索引擎第一天爬行您的網(wǎng)站沒有新的內(nèi)容,可 能搜索引擎第二次還會嘗試看有沒有新鮮的東西。不過這樣沒有幾天下去,搜索引擎也不會再來。
關(guān)鍵詞研究:這是搜索引擎SEO的第一步,目的是確定網(wǎng)站的關(guān)鍵詞策略。通過研究相關(guān)的關(guān)鍵詞,找出用戶搜索的熱門詞匯,并了解競爭對手的關(guān)鍵詞選擇和使用情況。
搜索引擎收錄網(wǎng)站內(nèi)容的過程中,其實含有更復(fù)雜的邏輯,這里廣本寶就不做衍生了。
一般來說,URL每一個“/”就代表一層,權(quán)重越低,層次越深,搜索引擎抓取越困難,排名也會越差。圖片優(yōu)化 圖片優(yōu)化應(yīng)站在用戶視覺、適合蜘蛛抓取等角度來考慮,圖片太大或太小都不好。
1、索引數(shù)據(jù)庫,索引是對數(shù)據(jù)庫表中一列或多列的值進行排序的一種結(jié)構(gòu),使用索引可快速訪問數(shù)據(jù)庫表中的特定信息。簡單的來說,就是把【抓取】的網(wǎng)頁放進數(shù)據(jù)庫。
2、蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個過程即是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。
3、先打開百度站長平臺,并找到“抓取頻次”這個工具。目錄為工具→網(wǎng)站分析→抓取頻次。首先是可以看到自己的抓取統(tǒng)計,包含抓取頻次、抓取時間、抓取狀態(tài)統(tǒng)計等等。
4、百度蜘蛛抓取規(guī)則 對網(wǎng)站抓取的友好性 百度蜘蛛在抓取互聯(lián)網(wǎng)上的信息時為了更多、更準確的獲取信息,會制定一個規(guī)則最大限度的利用帶寬和一切資源獲取信息,同時也會僅最大限度降低對所抓取網(wǎng)站的壓力。
5、用戶在查詢信息時,可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。
6、蜘蛛來到網(wǎng)站進行抓取,首先看的是網(wǎng)頁的頭部信息,若是蜘蛛發(fā)現(xiàn)有和索引庫中一樣的標題,則食欲就大減。文章的內(nèi)容應(yīng)具有唯一性,站內(nèi)不要有太多的相同內(nèi)容,站外相同也需求有唯一性。
蜘蛛喜歡的行為四:距離首頁點擊距離。這里說的距離首頁點擊距離一般是因為首頁的權(quán)重最高,蜘蛛爬行到首頁次數(shù)也最多,每通過一次鏈接叫一次點擊,距離首頁點擊距離越近代表了頁面權(quán)越重高,蜘蛛就喜歡這些短距離高權(quán)重的頁面。
也就是比如百度蜘蛛找到一個鏈接,沿著這個鏈接爬行到一個頁面,然后沿著這個頁面里面的鏈接爬行&hellip&hellip這個類似于蜘蛛網(wǎng)和大樹。這個理論雖然正確,但不準確。
深度鏈接 深度優(yōu)先指當蜘蛛發(fā)現(xiàn)一個鏈接時,它就會順著這個鏈接指出的路一直向前爬行,直到前面再也沒其他鏈接,這時就會返回第一個頁面,然后會繼續(xù)鏈接再一直往前爬行。
第一步:爬行 搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。
對于seoer來說,網(wǎng)站的第一步就是解決收錄問題,我們每天都在更新,可有時就是不收錄。我們要想得到收錄和蜘蛛的青睞,你就要懂得蜘蛛的爬行原理和規(guī)律。
也就是比如百度蜘蛛找到一個鏈接,沿著這個鏈接爬行到一個頁面,然后沿著這個頁面里面的鏈接爬行&hellip&hellip這個類似于蜘蛛網(wǎng)和大樹。這個理論雖然正確,但不準確。
網(wǎng)站權(quán)重:權(quán)重越高的網(wǎng)站百度蜘蛛會更頻繁和深度抓取 網(wǎng)站更新頻率:更新的頻率越高,百度蜘蛛來的就會越多 網(wǎng)站內(nèi)容質(zhì)量:網(wǎng)站內(nèi)容原創(chuàng)多、質(zhì)量高、能解決用戶問題的,百度會提高抓取頻次。
通常百度蜘蛛抓取規(guī)則是:種子URL-待抓取頁面-提取URL-過濾重復(fù)URL-解析網(wǎng)頁鏈接特征-進入鏈接總庫-等待提取。
搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。
服務(wù)器要穩(wěn)定,也就是一定要給蜘蛛營造一個好的爬行的環(huán)境,因為蜘蛛一旦碰上死鏈就會直接走掉,如果服務(wù)器不穩(wěn)定,可能蜘蛛轉(zhuǎn)一圈,一個頁面還沒有抓取就迫不及待要走了。
這個策略是由調(diào)度來計算和分配的,百度蜘蛛只負責(zé)抓取,權(quán)重優(yōu)先是指反向連接較多的頁面的優(yōu)先抓取,這也是調(diào)度的一種策略,一般情況下網(wǎng)頁抓取抓到40%是正常范圍,60%算很好,100%是不可能的,當然抓取的越多越好。
搜索引擎在對鏈接進行分析后,并不會馬上派蜘蛛去抓取,而是將鏈接和錨文本記錄到URL索引數(shù)據(jù)庫中進行分析、比較和計算,最后放入URL索引數(shù)據(jù)庫中。進入URL索引庫后,會有蜘蛛抓取。
抓取 讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。
對于新網(wǎng)站來說,想要讓蜘蛛爬蟲進入到網(wǎng)站,最好的方法就是通過外鏈的形式,因為蜘蛛爬蟲對新網(wǎng)站不熟悉也不信任,通過外鏈可以讓蜘蛛爬蟲順利的進入到網(wǎng)站中,從而增加友好性。