百度是否支持“Crawl-delay” |
發(fā)布時間: 2012/9/15 14:58:09 |
Crawl-delay 可能很多做小站的朋友不了解, 如果擁有大站的朋友可能用到過、但是超級牛站、比如新浪、我想就不會去考慮這個問題了。Crawl-delay 是Robots.txt中一個設置“蜘蛛”降低抓取頻度的參數(shù),而很多大站可能由于被搜索引擎抓取頻繁加上用戶訪問流量過大,導致頁面加載慢(就是我們說的有點卡)。
而目前對于也只有YAHOO公開代表支持這個參數(shù),具體可以參考:如何控制Yahoo! Slurp蜘蛛的抓取頻度
具體設置:
---------------------------
User-agent: *
Crawl-delay: 10
案例:http://www.blogbus.com/robots.txt (博客大巴)
而其它搜索引擎、目前還沒對這個參數(shù)進行表明,不過通過各種數(shù)據(jù)來解釋、百度及谷歌應該不會對這種參考過于說明! 因為他們很早就已經(jīng)考慮到這個問題。其中"百度站長俱樂部" 就LEE就說明:
問:蜘蛛大量抓取頁面導致服務器出現(xiàn)負載問題
答:會延遲百度對新網(wǎng)頁的收錄速度。
正常情況下,Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符,并不會給網(wǎng)站帶來很大的壓力。但現(xiàn)在網(wǎng)站結構通常都比較復雜,多種url形式指向的可能是相同的內(nèi)容,或者會自動產(chǎn)生大量無檢索價值的網(wǎng)頁。
我們目前發(fā)現(xiàn)的問題,主要來源于此,建議先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節(jié)省大量的資源。
具體參考:http://tieba.baidu.com/club/9374916/p/7587693
其實LEE這里說明一個問題用robots可以禁止垃圾頁面/無效頁面(也就是說、我們可以通過IIS日志去分析、網(wǎng)站中抓取頻率最高、而又無用的頁面,并進行屏蔽)但是這樣做只是為了增大收錄想被收錄頁面的機遇、同樣沒有解決抓取頻率過高問題。 可能我沒有這種大站,但是DJ小向知道有效的控制蜘蛛抓取、可以使用網(wǎng)站增大收錄量、同樣有效的控制蜘蛛返回碼、同樣可以使網(wǎng)站被K。
------------------------------------
10月10號補充:
問:百度是否支持User-agent: Slurp
本文出自:億恩科技【mszdt.com】 |