无码视频在线观看,99人妻,国产午夜视频,久久久久国产一级毛片高清版新婚

  • 始創(chuàng)于2000年 股票代碼:831685
    咨詢熱線:0371-60135900 注冊有禮 登錄
    • 掛牌上市企業(yè)
    • 60秒人工響應
    • 99.99%連通率
    • 7*24h人工
    • 故障100倍補償
    全部產(chǎn)品
    您的位置: 網(wǎng)站首頁 > 幫助中心>文章內(nèi)容

    詳解《光年SEO日志分析系統(tǒng)2.0》

    發(fā)布時間:  2012/9/14 15:13:38
     《光年SEO日志分析系統(tǒng)》剛才升級到了2.0,有朋友在論壇里提問說不知道怎么用數(shù)據(jù)分析來指導業(yè)務,我就趁新版本發(fā)布的時候順便說明一下各項功能。

    《光年SEO日志分析系統(tǒng)》的介紹:http://www.semyj.com/archives/1309
    2.0版本的下載地址還是以前那個:http://www.semyj.com/upload/gnanalyzer.rar

    第二版增加了更多的分析維度,還增加了日志拆分的功能。

    下面先來看幾個固定的分析維度,下面的數(shù)據(jù)是semyj.com我這個博客的日志分析數(shù)據(jù)。

    首先是“概要分析”:

    概要分析

    概要分析

     

    這里有各個爬蟲“訪問次數(shù)”、“總停留時間”和“總抓取量”的統(tǒng)計。從上面這個數(shù)據(jù)可以看出,百度爬蟲的抓取深度是不高的:訪問1868次,抓取量是2968,平均每次抓取1.59頁。這其實是百度爬蟲普遍的抓取特征,在絕大部分網(wǎng)站上都是這個規(guī)律。抓取深度不高的話,會造成很多層級很深的頁面不會被抓取到;以及造成少數(shù)頁面被反反復復在抓取,浪費了爬蟲的時間。這樣,很多網(wǎng)站想要在百度上獲得收錄就成了問題,特別是大中型網(wǎng)站。我所接觸的所有大中型網(wǎng)站,在刻意去優(yōu)化之前,一年下來很多網(wǎng)站至少還有一半的網(wǎng)頁沒有被百度爬蟲抓取到,部分網(wǎng)站甚至更嚴重。相比之下Google的抓取深度就好很多,總的抓取量也大一些。

    這里面比較重要的數(shù)據(jù)是那個“總抓取量”,因為它影響網(wǎng)站的收錄量,進而影響網(wǎng)站的SEO流量。在《網(wǎng)頁加載速度是如何影響SEO效果的》一文中說明過抓取量和SEO流量的關系。這個“總抓取量”的數(shù)據(jù)是好還是壞,是要根據(jù)每個網(wǎng)站的實際情況來看的。就semyj.com這個網(wǎng)站來說,它現(xiàn)在有53篇文章,300多個網(wǎng)頁,而現(xiàn)在google每天有16484個抓取量,百度有2968個抓取量。如果光看這個數(shù)據(jù),那看起來這300多個網(wǎng)頁基本上在一天之內(nèi)應該是能被抓取到的。但是很多大中型網(wǎng)站就不一樣。

    這里我先要說明一個有些人會混淆的問題。為什么我上面會刻意說明一下文章數(shù)量和網(wǎng)頁數(shù)量呢,這是因為文章數(shù)量肯定是不等于網(wǎng)頁數(shù)量的。不過有些人去查收錄量的時候就忽視了這個常識。如某網(wǎng)站的文章量(或稱單個資訊數(shù)量)是30萬,去搜索引擎用site等語法去查詢收錄量是29萬,就覺得自己的收錄量差不多了,而實際可能差得很遠。

    因為單個頁面都會派生出很多其他頁面的。如果打開某一個文章頁面,去數(shù)一下里面的URL,除去那些模板上重復的,還是有那么一些URL是只有當前這個頁面上才有的,也就是這個頁面派生出來的。而一個URL對應一個頁面,所以一個網(wǎng)站上擁有的頁面數(shù)量是這個網(wǎng)站的信息量的好幾倍,有時甚至是十幾二十倍。

    所以在看這個“總抓取量”之前,需要把自己網(wǎng)站內(nèi)可能擁有的頁面數(shù)量統(tǒng)計一遍?梢杂lynx在線版把每一類型的頁面上的URL都提取出來看一看。網(wǎng)頁總的數(shù)量知道了,再和“總抓取量”做對比,就可以知道這個數(shù)據(jù)是好還是差了。我覺得基本上,google爬蟲的抓取量要是網(wǎng)站頁面數(shù)量的2倍以上,抓取量才算及格,baidu爬蟲就需要更多了。因為實際上這個抓取量里面還有很多是重復抓取的;還有和上一天相比,每天的新增的頁面抓取不是很多的。

    這三個數(shù)據(jù):“訪問次數(shù)”、“總停留時間”和“總抓取量”,都是數(shù)字越高對網(wǎng)站越有利,所以需要想很多辦法提高他們。大多數(shù)時候看他們絕對值沒什么用處,而要看現(xiàn)在的和過去的比較值。如果你能每天去一直追蹤這些數(shù)據(jù)的變化情況,就能發(fā)現(xiàn)很多因素是如何影響這些數(shù)據(jù)的。

    以下其他數(shù)據(jù)也是如此某個當前數(shù)據(jù)的值有時候不一定有意義的,但是長期跟蹤這個數(shù)據(jù)的變化就能發(fā)現(xiàn)很多因素之間是如何互相影響的。

    然后是“目錄抓取”的數(shù)據(jù):

    目錄抓取統(tǒng)計

    目錄抓取統(tǒng)計

    這個“目錄”抓取的數(shù)據(jù)是對“總抓取量”的一個細分。一個網(wǎng)站當中,一定是有重點頁面和非重點頁面的,這個數(shù)據(jù)就可以讓你看看哪一類型的頁面被抓取的多,及時做一些調(diào)整。

    還有就是可以去搜索引擎按URL特征查詢一下各個目錄下的頁面的收錄情況,再來和這個目錄下的搜索引擎的抓取數(shù)據(jù)做一個對比,就可以發(fā)現(xiàn)更多的問題。對于semyj.com來說,看完這個數(shù)據(jù)就知道,可能那300多個網(wǎng)頁在一天之內(nèi)還是不能全部被抓取一遍的,因為原來大部分抓取都在bbs這個目錄下。(有時候就是有很多這樣意外的情況發(fā)生,bbs這個目錄早已經(jīng)做了301跳轉(zhuǎn),沒想到還有這么大的抓取量。——看數(shù)據(jù)永遠能知道真相是什么。)

    接著是“頁面抓取”的數(shù)據(jù):

    頁面抓取

    頁面抓取

    這個數(shù)據(jù)把一個網(wǎng)站中那些被重復抓取的頁面統(tǒng)計了出來,并分別統(tǒng)計是哪些爬蟲分別抓取了多少次。大家多分析幾個網(wǎng)站就會明白,百度爬蟲經(jīng)常是過度抓取的?。這個數(shù)據(jù)也驗證了前面的數(shù)據(jù):因為它平均每次抓取1.59頁,也就是每次來抓取都停留在表層,但是又經(jīng)常來抓,所以勢必導致少部分頁面是經(jīng)常被百度抓取的。因為有重復抓取的存在,所以一個網(wǎng)站光看抓取量大不大是沒什么用的,還要看有多少不重復的頁面被抓取到了。還有就是要想辦法解決這個問題。

    在“蜘蛛IP排行”數(shù)據(jù)里,統(tǒng)計了每個爬蟲IP的訪問情況:

    IP排行

    IP排行

    如果分析過很多網(wǎng)站,就會發(fā)現(xiàn)爬蟲對某一個站的訪問,特定時間內(nèi)的IP段都會集中在某一個C段。這是由搜索引擎的原理決定的,感興趣的朋友可以查詢相關書籍。知道這個特征有時候可以用得著。

    報表里有個查詢IP地址的功能,可以查詢那些爬蟲IP是不是真的,如上圖紅框內(nèi)的IP,就是一個偽裝成google爬蟲的采集者。

    這個數(shù)據(jù)和上面的所有數(shù)據(jù)都一樣,前后對比就可以發(fā)現(xiàn)更多的信息。

    以下是“關鍵字分析”的數(shù)據(jù):

    關鍵詞分析

    關鍵詞分析

    “類型”這里是說明這個關鍵詞是從網(wǎng)頁搜索還是圖片搜索或視頻搜索里來的SEO流量。而“上次用關鍵字”,是統(tǒng)計用戶搜索當前的關鍵詞進入網(wǎng)站之前,是在搜索什么詞語。這個功能只有百度有效,因為百度在url中記錄了用戶上次使用的關鍵詞。 這個地方的界面還需要修改,下一版本中會完善。
     
    “狀態(tài)碼分析”報告中,現(xiàn)在把用戶碰到的狀態(tài)嗎和爬蟲碰到的狀態(tài)碼分開了,其他沒有什么改變:
    狀態(tài)碼

    狀態(tài)碼

    這里每一行數(shù)據(jù)都分為兩個部分,第1部分是表示哪個文件出現(xiàn)了這個狀態(tài)碼,第2部分是表示發(fā)生在哪個網(wǎng)頁。從上面的數(shù)據(jù)可以看出,這個網(wǎng)站在被一些黑客工具掃描。
     
    在《光年SEO日志分析系統(tǒng)》第二版中,最重要的升級是增加了“日志拆分”功能。有了這個功能,就可以用任意維度去分析網(wǎng)站日志了。
    以下是可以拆分的日志字段:
    拆分字段

    拆分字段

     只要你的網(wǎng)站日志是齊全的,有了日志拆分功能這個功能就相當于有了一個數(shù)據(jù)倉庫。這個時候查看網(wǎng)站的數(shù)據(jù),就:只有你想不到,沒有它查不到的。

    如:我們要查看上面那個偽裝成google蜘蛛的IP采集了哪些網(wǎng)頁,就把拆分條件定義為:ip等于222.186.24.59,agent等于googlebot,就可以把日志拆分出來了;還有要看是哪些IP在用黑客工具掃描網(wǎng)站時,就把拆分條件定義為:url等于MIRSERVER.RAR或等于WWWROOT.RAR等等就可以看到了。

    我還建議大家多去拆分爬蟲的抓取軌跡,把某一個爬蟲IP的抓取路徑拆分出來,觀察它的抓取路徑,再和網(wǎng)站上的URL對應,就能明白爬蟲抓取的很多規(guī)律。

    其實本來還應該開發(fā)一個日志合并的功能,但是這個功能實在太簡單,一般我們用DOS里面的copy命令就可以解決這個問題:

    Copy命令

    Copy命令

    這樣,你可以把網(wǎng)站一星期內(nèi)的、一個月內(nèi)的甚至半年來的日志合并起來分析!豆饽闟EO日志分析系統(tǒng)》是支持分析無限大的日志的,只要你有時間。

    在“設置”-“性能設置”里,有兩個地方要注意。一個是那個“蜘蛛計算間隔”,這里表示一個蜘蛛多少時間內(nèi)沒有活動就算它離開了。這里要注意對比分析的時候每次都要是同一個時間,因為這里的時間按改變了,那計算爬蟲來訪的次數(shù)就變了。還有一個是“分析顯示條數(shù)”,現(xiàn)在你可以自己定義在報表中要顯示多少行數(shù)據(jù),默認只有5條。

    文章太長就寫到這里,《光年SEO日志分析系統(tǒng)》目前是收費的軟件,免費版能用10次或是30天。到光年論壇用論壇金幣可以購買。 


    本文出自:億恩科技【mszdt.com】

    服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權(quán)所有  地址:鄭州市高新區(qū)翠竹街1號總部企業(yè)基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號
      1
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線