百度是否支持“Crawl-delay” |
發(fā)布時(shí)間: 2012/9/15 14:58:09 |
Crawl-delay 可能很多做小站的朋友不了解, 如果擁有大站的朋友可能用到過(guò)、但是超級(jí)牛站、比如新浪、我想就不會(huì)去考慮這個(gè)問(wèn)題了。Crawl-delay 是Robots.txt中一個(gè)設(shè)置“蜘蛛”降低抓取頻度的參數(shù),而很多大站可能由于被搜索引擎抓取頻繁加上用戶訪問(wèn)流量過(guò)大,導(dǎo)致頁(yè)面加載慢(就是我們說(shuō)的有點(diǎn)卡)。
而目前對(duì)于也只有YAHOO公開(kāi)代表支持這個(gè)參數(shù),具體可以參考:如何控制Yahoo! Slurp蜘蛛的抓取頻度
具體設(shè)置:
---------------------------
User-agent: *
Crawl-delay: 10
案例:http://www.blogbus.com/robots.txt (博客大巴)
而其它搜索引擎、目前還沒(méi)對(duì)這個(gè)參數(shù)進(jìn)行表明,不過(guò)通過(guò)各種數(shù)據(jù)來(lái)解釋、百度及谷歌應(yīng)該不會(huì)對(duì)這種參考過(guò)于說(shuō)明! 因?yàn)樗麄兒茉缇鸵呀?jīng)考慮到這個(gè)問(wèn)題。其中"百度站長(zhǎng)俱樂(lè)部" 就LEE就說(shuō)明:
問(wèn):蜘蛛大量抓取頁(yè)面導(dǎo)致服務(wù)器出現(xiàn)負(fù)載問(wèn)題
答:會(huì)延遲百度對(duì)新網(wǎng)頁(yè)的收錄速度。
正常情況下,Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符,并不會(huì)給網(wǎng)站帶來(lái)很大的壓力。但現(xiàn)在網(wǎng)站結(jié)構(gòu)通常都比較復(fù)雜,多種url形式指向的可能是相同的內(nèi)容,或者會(huì)自動(dòng)產(chǎn)生大量無(wú)檢索價(jià)值的網(wǎng)頁(yè)。
我們目前發(fā)現(xiàn)的問(wèn)題,主要來(lái)源于此,建議先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節(jié)省大量的資源。
具體參考:http://tieba.baidu.com/club/9374916/p/7587693
其實(shí)LEE這里說(shuō)明一個(gè)問(wèn)題用robots可以禁止垃圾頁(yè)面/無(wú)效頁(yè)面(也就是說(shuō)、我們可以通過(guò)IIS日志去分析、網(wǎng)站中抓取頻率最高、而又無(wú)用的頁(yè)面,并進(jìn)行屏蔽)但是這樣做只是為了增大收錄想被收錄頁(yè)面的機(jī)遇、同樣沒(méi)有解決抓取頻率過(guò)高問(wèn)題。 可能我沒(méi)有這種大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用網(wǎng)站增大收錄量、同樣有效的控制蜘蛛返回碼、同樣可以使網(wǎng)站被K。
------------------------------------
10月10號(hào)補(bǔ)充:
問(wèn):百度是否支持User-agent: Slurp
本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |