日志分析:數(shù)據(jù)不會(huì)說(shuō)謊 但要學(xué)會(huì)挖掘 |
發(fā)布時(shí)間: 2012/9/23 15:32:56 |
下面就寫(xiě)一下自己如何分析一個(gè)垃圾站的過(guò)程,來(lái)堅(jiān)定下大家做日志分析的信心。
起因:前段時(shí)間做了個(gè)垃圾站來(lái)玩玩,做好之后又失去了激情,就在那里放著了,提交了百度、谷歌,沒(méi)有做過(guò)外鏈,只是最近幾天隨手發(fā)了幾個(gè)垃圾帖子,算作外鏈吧。因?yàn)闀r(shí)間興趣等原因,只是偶爾下載日志來(lái)看一下,沒(méi)有做數(shù)據(jù)記錄,沒(méi)有仔細(xì)的觀察。 經(jīng)過(guò):一直以來(lái)百度只是收錄了首頁(yè),谷歌收錄還不錯(cuò)但是沒(méi)有排名沒(méi)有流量。前天突然興起想要把這站整一下,就去查看了一下日志,發(fā)現(xiàn)不論百度還是谷歌蜘蛛來(lái)的次數(shù)很少,抓取也是少得可憐。 結(jié)論:仔細(xì)分析了下,發(fā)現(xiàn)原來(lái)已經(jīng)在很多地方體現(xiàn)了現(xiàn)在的惡劣后果。 1.蜘蛛來(lái)的次數(shù)很少,雖然網(wǎng)站沒(méi)有做外鏈,但是對(duì)于一個(gè)架構(gòu)合理的網(wǎng)站(已經(jīng)提交搜索引擎抓。﹣(lái)說(shuō),一個(gè)月的時(shí)間已經(jīng)能夠積累一定權(quán)重讓很多蜘蛛來(lái)主動(dòng)抓取了(看抓取次數(shù))。 2.抓取數(shù)量很少,抓取數(shù)量=總抓取時(shí)間/每個(gè)頁(yè)面加載時(shí)間,根據(jù)日志查看的總抓取時(shí)間和監(jiān)控寶監(jiān)控的網(wǎng)頁(yè)加載時(shí)間,數(shù)據(jù)嚴(yán)重不相符(對(duì)比上圖的總停留時(shí)間、總抓取量和下圖的響應(yīng)時(shí)間,悲劇的被遮住了重要數(shù)據(jù),是337ms)。 3.再看日志源文件,蜘蛛的抓取應(yīng)該是快速密集的,通過(guò)數(shù)據(jù)提取明顯有很大的問(wèn)題(注意蜘蛛兩次抓取時(shí)間間隔,應(yīng)該是密集的,這是網(wǎng)站改動(dòng)后還算正常的截圖,之前的一塌糊涂)。 4.仔細(xì)觀察就會(huì)發(fā)現(xiàn)日志中路徑的抓取錯(cuò)誤和返回碼的錯(cuò)誤(注意狀態(tài)碼,蜘蛛居然主動(dòng)給后邊加了/,抓取1746.html/ 才是返回200)。 5.谷歌網(wǎng)站管理員工具的應(yīng)用,有一個(gè)功能:像Googlebot一樣抓取。在這里可以測(cè)試一個(gè)網(wǎng)頁(yè)是否能被谷歌抓取成功和網(wǎng)頁(yè)的返回狀態(tài)碼,自己之前只是測(cè)試了首頁(yè),這次測(cè)試了下內(nèi)頁(yè)居然返回的是301。 6.結(jié)論:空間商的偽靜態(tài)規(guī)則有問(wèn)題造成了網(wǎng)站的偽靜態(tài)出現(xiàn)返回301的錯(cuò)誤。 事后感想:我也不知道有什么感想,總之很亂。這些錯(cuò)誤是很容易發(fā)現(xiàn)的,只是由于自己的疏忽或者是懶惰吧。 再一次證明日志分析,數(shù)據(jù)分析的強(qiáng)大! 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |