錯(cuò)誤鏈接的抓取 |
發(fā)布時(shí)間: 2012/9/23 15:51:53 |
上圖是隨便抽取的幾個(gè)蜘蛛返回404狀態(tài)碼的抓取頁(yè)面,從圖中的標(biāo)注可以看出,即使網(wǎng)站沒(méi)有死鏈,蜘蛛仍然會(huì)抓取一部分死鏈,百度蜘蛛喜歡抓取一半U(xiǎn)RL然后就被勾引到別的地方,而谷歌也有htm后綴抓成html的情況,不過(guò)相對(duì)來(lái)說(shuō),谷歌的抓取錯(cuò)誤還是非常少的,而百度就不少了,究其原因,估計(jì)只有兩家公司的工程師才清楚,我們也沒(méi)必要去關(guān)注這個(gè)原因。針對(duì)這一點(diǎn),無(wú)論你的站有沒(méi)有死鏈,盡量都去給加上404錯(cuò)誤頁(yè)面,因?yàn),不管你有木有死鏈,蜘蛛都?huì)抓到。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |