網(wǎng)站數(shù)據(jù)分析:多維交叉分析(二) |
發(fā)布時間: 2012/8/17 9:37:12 |
交叉分析的基礎 這里不得不再說一下交叉分析基于的底層基礎數(shù)據(jù)模型,因為如果沒有設計好底層的數(shù)據(jù)模型,上層的交叉分析是很難實現(xiàn)的,或者多維的交叉受到限制而使分析存在局限性。 從技術層面來看,交叉分析基于多維模型,數(shù)據(jù)的維度越豐富,所能實現(xiàn)的交叉也越豐富和靈活,通過各種交叉分析能夠更加有效地發(fā)現(xiàn)問題;但相應的,如果要盡可能地豐富各維度的交叉分析,對基層模型的要求也就越高。所以如何設計好數(shù)據(jù)的底層模型非常關鍵,還是引用數(shù)據(jù)立方體與OLAP文中的那個數(shù)據(jù)立方看個簡單的例子: 如果一張網(wǎng)站分析的報表只包含以月度為單位的日期維和相應的指標,那么數(shù)據(jù)的存儲就是每個月一條記錄,但顯然這種高度聚合的數(shù)據(jù)不利于分析,我們需要構建如上圖的數(shù)據(jù)立方體來獲取更加細節(jié)的數(shù)據(jù)。用數(shù)據(jù)立方來拓展數(shù)據(jù)細節(jié)有兩種方向,一類是縱深拓展,也就是基于一個維度的細分,比如將一個月細分到每一天,那么一條記錄將會被拓展成30條;還有一種是橫向的拓展,就是多個維度的交叉,就像上面立方中添加了產(chǎn)品維和地域維。這樣存儲的數(shù)據(jù)就從原本單一的時間維度擴展成了時間、產(chǎn)品和地域三個維度,也就是三維立方體所能展現(xiàn)的形式,當然維度可以繼續(xù)擴展,四個五個直到N個,理論上都是可行的,這里只要以三個維度進行舉例就可以。對于數(shù)據(jù)存儲而言,橫向的拓展與縱深拓展的影響是一樣的,記錄數(shù)都是以倍乘的方式增長,假設這里產(chǎn)品維是產(chǎn)品大類,有20個產(chǎn)品大類,再加上32個省份或直轄市,那么經(jīng)過縱深和橫向拓展之后,原先每月的1條記錄就變成了: 1 × 30 × 20 × 32 = 19200 而我們在構建多維模型的時候很多維度中包含的數(shù)據(jù)量絕對不像上面例舉的那么小,想象一下網(wǎng)站的商品或者頁面的數(shù)量可能是成百上千甚至成千上萬的,那么一旦以倍乘的形式擴展之后,數(shù)據(jù)量就會一下子劇增。雖然豐富的多維立方能夠給分析帶來便利,但也同時給數(shù)據(jù)的存儲和查詢帶來的壓力。 所以,更加豐富和靈活的分析需求的實現(xiàn)基于更加復雜的多維模型或者數(shù)據(jù)立方,同時會帶來更大的系統(tǒng)開銷。Google Analytics很好地權衡了靈活的數(shù)據(jù)分析與復雜數(shù)據(jù)模型之間的關系,這也是Google Analytics強大功能的基本保障,GA的高級細分(Advanced Segments)和自定義Dashboard是其他同類免費網(wǎng)站分析工具所無法比擬的,這也正是為什么我們將GA劃分到網(wǎng)站數(shù)據(jù)分析工具,而其他的大部分只能算作網(wǎng)站數(shù)據(jù)統(tǒng)計工具的原因。而GA正是基于其構建的強大的底層數(shù)據(jù)模型和高效的數(shù)據(jù)計算和響應能力,使很多分析功能可以得到擴展,其中很多就涉及交叉分析,這里截圖了其中的兩個功能,Secondary Dimension和Pivot: Google Analytics新版本增加了很多令人心動的功能,Secondary dimension的功能從老版本得到了延續(xù),上圖在Content模塊的Page報表中選擇了流量來源作為第二維度,這樣我們就可以查看每個頁面的流量是從何而來,每個流量來源在該頁面的數(shù)據(jù)表現(xiàn),同時可能還可以發(fā)現(xiàn)一些有趣的現(xiàn)象,比如某些頁面的流量基本都是一個來源帶來的,比如我的博客的某些文章基本都是通過搜索引擎進來的,而另外一些文章基本通過直接流量帶來。 在GA的各類報表中可以在右上角選擇展現(xiàn)的形式,最后的一種就是Pivot,Pivot的形式對表格的表頭進行了擴展,可以分層次放置另外的維度,如上圖還是使用了頁面與流量來源的交叉,將Source維度放到了指標的上方。同時GA支持在兩個維度的基礎上最多選擇兩個度量Metric,我這里選擇了Pageviews和Bounce Rate,來衡量每個頁面中各類流量來源所帶來的“量”和“質”,同樣對于分析非常有價值。 多維的交叉分析我們在日常中潛移默化地經(jīng)常會用到,交叉分析對于問題的排查和定位額外有效,所以我們需要想辦法用更好的形式去展現(xiàn)數(shù)據(jù),以便于更有利于進行交叉分析,其實這里介紹的透視表的方式是最常用的,也是比較好用的,但這類方式太少,不知道大家有沒有其他更加有效的交叉分析展現(xiàn)方式。 本文出自:億恩科技【mszdt.com】 |