“大數(shù)據(jù)”與“海量數(shù)據(jù)”的區(qū)別 |
發(fā)布時(shí)間: 2012/8/7 19:46:43 |
中國IDC評(píng)述網(wǎng)11月04日報(bào)道:很多年前,業(yè)界就在討論一個(gè)話題:如何應(yīng)對海量數(shù)據(jù)?特別是一些需要存儲(chǔ)大量用戶數(shù)據(jù)的行業(yè),金融、電信、保險(xiǎn)等熱門行業(yè)。用戶幾乎在一天的每個(gè)小時(shí),都有可能產(chǎn)生大量數(shù)據(jù),這些行業(yè)的存儲(chǔ)設(shè)備,必須要將期間產(chǎn)生的數(shù)據(jù)一絲不茍地記錄下來。隨著數(shù)據(jù)量的迅速增加,很多行業(yè)用戶開始想辦法變“數(shù)”為寶,從海量數(shù)據(jù)中挖掘有價(jià)值的信息。
如果僅僅是海量的結(jié)構(gòu)性數(shù)據(jù),那么解決的辦法就比較的單一,用戶通過購買更多的存儲(chǔ)設(shè)備,提高存儲(chǔ)設(shè)備的效率等解決此類問題。然而,當(dāng)人們發(fā)現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)可以分為三種類型:結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)以及半結(jié)構(gòu)性數(shù)據(jù)等復(fù)雜情況時(shí),問題似乎就沒有那么簡單了。
大數(shù)據(jù)洶涌來襲
當(dāng)類型復(fù)雜的數(shù)據(jù)洶涌襲來,那么對于用戶IT系統(tǒng)的沖擊又會(huì)是另外一種處理方式。很多業(yè)內(nèi)專家和第三方調(diào)查機(jī)構(gòu)通過一些市場調(diào)查數(shù)據(jù)發(fā)現(xiàn),大數(shù)據(jù)時(shí)代即將到來。有調(diào)查發(fā)現(xiàn),這些復(fù)雜數(shù)據(jù)中有85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
如今大數(shù)據(jù)的概念也存在著很多的炒作和大量的不確定性。為此,編者詳細(xì)向一些業(yè)內(nèi)專家詳細(xì)了解有關(guān)方面的問題,請他們談一談,大數(shù)據(jù)是什么和不是什么,以及如何應(yīng)對大數(shù)據(jù)等問題,將系列文章的形式與網(wǎng)友見面。
有人將多TB數(shù)據(jù)集也稱作"大數(shù)據(jù)"。據(jù)市場研究公司IDC統(tǒng)計(jì),數(shù)據(jù)使用預(yù)計(jì)將增長44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。然而,單個(gè)數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
EMC曾經(jīng)表示,它的1000多個(gè)客戶在其陣列中使用1PB(千兆兆)以上的數(shù)據(jù)數(shù)據(jù),這個(gè)數(shù)字到2020年將增長到10萬。一些客戶在一兩年內(nèi)還將開始使用數(shù)千倍多的數(shù)據(jù),1EB(1艾字節(jié) = 10億GB)或者更多的數(shù)據(jù)。
對大企業(yè)而言,大數(shù)據(jù)的興起部分是因?yàn)橛?jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù),另外是把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡單。IDC認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。同時(shí),IDC還表示,某項(xiàng)技術(shù)要想成為大數(shù)據(jù)技術(shù),首先必須是成本可承受的,其次是必須滿足IBM所描述的三個(gè)"V"判據(jù)中的兩個(gè):多樣性(variety)、體量(volume)和速度(velocity)。
多樣性是指,數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。
體量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的。
而速度則是指數(shù)據(jù)處理的速度必須很快。
大數(shù)據(jù)"并非總是說有數(shù)百個(gè)TB才算得上。根據(jù)實(shí)際使用情況,有時(shí)候數(shù)百個(gè)GB的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個(gè)維度,也就是速度或者時(shí)間維度。
Garter表示,全球信息量正在以59%以上的年增長率增長,而量是在管理數(shù)據(jù)、業(yè)務(wù)方面的顯著挑戰(zhàn),IT領(lǐng)袖必須側(cè)重在信息量、種類和速度上。
量:企業(yè)系統(tǒng)內(nèi)部的數(shù)據(jù)量的增加是由交易量、其它傳統(tǒng)數(shù)據(jù)類型和新的數(shù)據(jù)類型引發(fā)的。過多的量是一個(gè)存儲(chǔ)的問題,但過多的數(shù)據(jù)也是一個(gè)大量分析的問題。
種類:IT領(lǐng)袖在將大量的交易信息轉(zhuǎn)化為決策上一直存在困擾 - 現(xiàn)在有更多類型的信息需要分析 - 主要來自社交媒體和移動(dòng)(情景感知)。種類包括表格數(shù)據(jù)(數(shù)據(jù)庫)、分層數(shù)據(jù)、文件、電子郵件、計(jì)量數(shù)據(jù)、視頻、靜態(tài)圖像、音頻、股票行情數(shù)據(jù)、金融交易和其它更多種類。
速度:這涉及到數(shù)據(jù)流、結(jié)構(gòu)化記錄的創(chuàng)建,以及訪問和交付的可用性。速度意味著正在被生成的數(shù)據(jù)有多快和數(shù)據(jù)必須被多快地處理以滿足需求。
雖然大數(shù)據(jù)是一個(gè)重大問題,Gartner分析師表示,真正的問題是讓大數(shù)據(jù)更有意義,在大數(shù)據(jù)里面尋找模式幫助組織機(jī)構(gòu)做出更好的商業(yè)決策。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |