SEO診斷:透過Log日志找到網(wǎng)站死結(jié) |
發(fā)布時(shí)間: 2012/9/19 18:12:09 |
前幾天和一位朋友聊天,互相交換了下對(duì)8月末百度算法更新的一些看法。結(jié)束的時(shí)候朋友讓我?guī)退治鲆幌滤男抡荆W(wǎng)站的問題是快照停留在8月15日,并且快20天百度沒有收錄新內(nèi)容。
從簡(jiǎn)單的交談得知,網(wǎng)站上線2個(gè)月,每日?qǐng)?jiān)持更新原創(chuàng)內(nèi)容和外鏈。自打百度收錄后,文章隔天收錄,長(zhǎng)尾詞排名也不錯(cuò)。但是8月19日快照回檔到 815后,快照再未更新過。通過分析這個(gè)站的整體結(jié)構(gòu)和內(nèi)容,發(fā)現(xiàn)整站結(jié)構(gòu)清晰明了,并沒有嚴(yán)重的結(jié)構(gòu)上的問題,文章內(nèi)容圖文并茂,寫的也不錯(cuò),而且長(zhǎng)尾 詞排名確實(shí)不錯(cuò),這對(duì)一個(gè)新站來說做的很不錯(cuò)。
為什么快照不更新,新內(nèi)容不再收錄?難道是百度自身的問題,還是有其他“肉眼”看不到的癥結(jié)?這個(gè)時(shí)候想起了日志分析,有的時(shí)候只有透過內(nèi)在看問題。
從朋友處要來了前一天的網(wǎng)站LOG日志,下圖是日志分析工具得出來的蜘蛛概要截圖。從圖上我們可以看到三大主流搜索引擎的蜘蛛訪問次數(shù)、停留時(shí)間和總抓取量等信息。
朋友這個(gè)站屬于一個(gè)新站,外鏈不多,整個(gè)網(wǎng)站的資訊量也不是很大。依據(jù)個(gè)人的經(jīng)驗(yàn)分析,蜘蛛單次抓取量(總抓取量÷訪問次數(shù))達(dá)到80-100已經(jīng)算是一個(gè)非常不錯(cuò)的數(shù)字了。緣何網(wǎng)站的新內(nèi)容不收錄?
第二步,來看看網(wǎng)站目錄的抓取情況。下圖是截取了三大主流蜘蛛目錄抓取Top3目錄的一個(gè)截圖,從圖上我們可以看到圖上的archiver目錄的抓取量遠(yuǎn)遠(yuǎn)超過于其他的網(wǎng)站目錄。這個(gè)數(shù)據(jù)讓我有點(diǎn)不安心了。
從朋友的網(wǎng)站了解到,這是一個(gè)每日歸檔目錄,從圖上我們可以看到的是2010年09月05日返回的當(dāng)日發(fā)布內(nèi)容為空(朋友這個(gè)站建站才2個(gè)多月)。
通過站長(zhǎng)工具可以看到,該URL返回的是200狀態(tài)碼。此時(shí)心理大概有個(gè)底了,蜘蛛在這個(gè)目錄的爬行一定遇到了困難。
為了驗(yàn)證自己的判斷,通過Editplus打開了LOG文件,不出所料幾大蜘蛛在抓取archive目錄時(shí)陷入了死胡同。
癥結(jié)找到了,接下來就是如何處理這個(gè)問題。由于這個(gè)文檔歸檔功能是朋友購買的一款插件,所以朋友還是希望能夠保留這個(gè)每日歸檔欄目,畢竟錢花了得用 到實(shí)處,不求該欄目能帶來流量但卻是個(gè)有益的補(bǔ)充。剛開始考慮通過NOFOLLOW來屏蔽蜘蛛爬取,但是想來想去還是不妥,畢竟已經(jīng)收錄的頁面還是給了蜘 蛛爬行的余地,又會(huì)出現(xiàn)文中所說的死循環(huán)。
最后,給了朋友兩條建議:
1、聯(lián)系插件開發(fā)者修復(fù)此BUG;
2、刪除整個(gè)archive目錄返回404狀態(tài)碼,并且在robots中屏蔽archive目錄;
整個(gè)的診斷過程就是這樣。很多時(shí)候當(dāng)我們網(wǎng)站出現(xiàn)問題的時(shí)候,請(qǐng)不妨打開你的網(wǎng)站LOG日志,仔細(xì)對(duì)比并分析里面的數(shù)據(jù),將會(huì)對(duì)你找到問題的所在有很大的幫助。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |