對(duì)于百度搜索引擎來(lái)說(shuō),蜘蛛黑洞特指網(wǎng)站通過(guò)極低的成本制造出大量參數(shù)過(guò)多、內(nèi)容類同但url不同的動(dòng)態(tài)URL ,就像一個(gè)無(wú)限循環(huán)的“黑洞“,將spider困住。spider浪費(fèi)了大量資源抓取的卻是無(wú)效網(wǎng)頁(yè)。
對(duì)于百度搜索引擎來(lái)說(shuō),蜘蛛黑洞特指網(wǎng)站通過(guò)極低的成本制造出大量參數(shù)過(guò)多、內(nèi)容類同但url不同的動(dòng)態(tài)URL ,就像一個(gè)無(wú)限循環(huán)的“黑洞“,將spider困住。spider浪費(fèi)了大量資源抓取的卻是無(wú)效網(wǎng)頁(yè)。
如很多網(wǎng)站都有篩選功能,通過(guò)篩選功能產(chǎn)生的網(wǎng)頁(yè)經(jīng)常會(huì)被搜索引擎大量抓取,而這其中很大一部分是檢索價(jià)值低質(zhì)的頁(yè)面。如“500-1000之間價(jià)格的租房”,首先網(wǎng)站(包括現(xiàn)實(shí)中)上基本沒(méi)有相關(guān)資源,其次站內(nèi)用戶和搜索引擎用戶都沒(méi)有這種檢索習(xí)慣。這種網(wǎng)頁(yè)被搜索引擎大量抓取,只能是占用網(wǎng)站寶貴的抓取配額,那么該如何避免這種情況呢?
我們以北京美團(tuán)網(wǎng)為例,看看美團(tuán)網(wǎng)是如何利用robots巧妙避免這種蜘蛛黑洞的:
對(duì)于普通的篩選結(jié)果頁(yè),使用了靜態(tài)鏈接,如:
http://bj.meituan.com/category/zizhucan/weigongcun
同樣是條件篩選結(jié)果頁(yè),當(dāng)用戶選擇不同排序條件后,會(huì)生成帶有不同參數(shù)的動(dòng)態(tài)鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數(shù)也都是不同的。如:http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
對(duì)于美團(tuán)網(wǎng)來(lái)說(shuō),只讓搜索引擎抓取篩選結(jié)果頁(yè)就可以了,而各種帶參數(shù)的結(jié)果排序頁(yè)面則通過(guò)robots規(guī)則拒絕提供給搜索引擎。在robots.txt的文件用法中有這樣一條規(guī)則:Disallow: /*?* ,即禁止搜索引擎訪問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面。美團(tuán)網(wǎng)恰是通過(guò)這種方式,對(duì)spider優(yōu)先展示高質(zhì)量頁(yè)面、屏蔽了低質(zhì)量頁(yè)面,為spider提供了更友好的網(wǎng)站結(jié)構(gòu),避免了黑洞的形成。
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國(guó)家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營(yíng)商。億恩為近五十萬(wàn)的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:
0371-60135995
服務(wù)熱線:
0371-60135900