文章內(nèi)容

百度是否支持“Crawl-delay”

發(fā)布時(shí)間: 2012/9/15 14:58:09

　Crawl-delay 可能很多做小站的朋友不了解，如果擁有大站的朋友可能用到過(guò)、但是超級(jí)牛站、比如新浪、我想就不會(huì)去考慮這個(gè)問(wèn)題了。Crawl-delay 是Robots.txt中一個(gè)設(shè)置“蜘蛛”降低抓取頻度的參數(shù)，而很多大站可能由于被搜索引擎抓取頻繁加上用戶訪問(wèn)流量過(guò)大，導(dǎo)致頁(yè)面加載慢(就是我們說(shuō)的有點(diǎn)卡)。

　　而目前對(duì)于也只有YAHOO公開(kāi)代表支持這個(gè)參數(shù)，具體可以參考：如何控制Yahoo! Slurp蜘蛛的抓取頻度

　　具體設(shè)置：

　　---------------------------

　　User-agent: *

　　Crawl-delay: 10

案例：http://www.blogbus.com/robots.txt (博客大巴)

　　而其它搜索引擎、目前還沒(méi)對(duì)這個(gè)參數(shù)進(jìn)行表明，不過(guò)通過(guò)各種數(shù)據(jù)來(lái)解釋、百度及谷歌應(yīng)該不會(huì)對(duì)這種參考過(guò)于說(shuō)明! 因?yàn)樗麄兒茉缇鸵呀?jīng)考慮到這個(gè)問(wèn)題。其中"百度站長(zhǎng)俱樂(lè)部" 就LEE就說(shuō)明：

　　問(wèn)：蜘蛛大量抓取頁(yè)面導(dǎo)致服務(wù)器出現(xiàn)負(fù)載問(wèn)題

　　答：會(huì)延遲百度對(duì)新網(wǎng)頁(yè)的收錄速度。

　　正常情況下，Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符，并不會(huì)給網(wǎng)站帶來(lái)很大的壓力。但現(xiàn)在網(wǎng)站結(jié)構(gòu)通常都比較復(fù)雜，多種url形式指向的可能是相同的內(nèi)容，或者會(huì)自動(dòng)產(chǎn)生大量無(wú)檢索價(jià)值的網(wǎng)頁(yè)。

　　我們目前發(fā)現(xiàn)的問(wèn)題，主要來(lái)源于此，建議先分析一下spider的抓取日志，看看是否抓取了你不希望搜索引擎收錄的形式，如果有，robots掉它們可以節(jié)省大量的資源。

　　具體參考：http://tieba.baidu.com/club/9374916/p/7587693

其實(shí)LEE這里說(shuō)明一個(gè)問(wèn)題用robots可以禁止垃圾頁(yè)面/無(wú)效頁(yè)面（也就是說(shuō)、我們可以通過(guò)IIS日志去分析、網(wǎng)站中抓取頻率最高、而又無(wú)用的頁(yè)面，并進(jìn)行屏蔽）但是這樣做只是為了增大收錄想被收錄頁(yè)面的機(jī)遇、同樣沒(méi)有解決抓取頻率過(guò)高問(wèn)題。可能我沒(méi)有這種大站，但是DJ小向知道有效的控制蜘蛛抓取、可以使用網(wǎng)站增大收錄量、同樣有效的控制蜘蛛返回碼、同樣可以使網(wǎng)站被K。

------------------------------------

　　10月10號(hào)補(bǔ)充：

　　問(wèn)：百度是否支持User-agent: Slurp

回：可以在robots中的crawl-delay中設(shè)置，這個(gè)參數(shù)是baidu spider對(duì)網(wǎng)站訪問(wèn)頻率的重要參考信息之一，但spider系統(tǒng)會(huì)根據(jù)網(wǎng)站規(guī)模、質(zhì)量、更新頻度等多方面信息綜合計(jì)算得出最終的執(zhí)行壓力，因此并不保證嚴(yán)格遵守crawl-delay中的設(shè)置值。
本文出自：億恩科技【mszdt.com】

服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)！虛擬主機(jī)域名注冊(cè)頂級(jí)提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]