融合存儲(chǔ)服務(wù)器:應(yīng)對(duì)不同類(lèi)型大數(shù)據(jù)挑戰(zhàn) |
發(fā)布時(shí)間: 2012/8/14 17:50:51 |
大數(shù)據(jù)正和云計(jì)算一起,推動(dòng)著整個(gè)IT產(chǎn)業(yè)的發(fā)展。所謂大數(shù)據(jù),IDC對(duì)其的定義為:“為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代的架構(gòu)和技術(shù)。”大數(shù)據(jù)具有高容量、高價(jià)值、多樣化和持續(xù)性的特點(diǎn),尤其是非結(jié)構(gòu)化的特性,使得大數(shù)據(jù)的保存、管理、挖掘等成為了當(dāng)前企業(yè)面臨的挑戰(zhàn)。而正因?yàn)槿绱,大?shù)據(jù)催生了一個(gè)迅猛發(fā)展的市場(chǎng)。有關(guān)數(shù)據(jù)顯示, 2010年全球大數(shù)據(jù)以及相關(guān)硬件、軟件和服務(wù)市場(chǎng)僅為30億美元,而到2015年該市場(chǎng)的規(guī)模將超過(guò)170億美元,平均年增長(zhǎng)速度超過(guò)50%。 而智能手機(jī)、視頻、社交網(wǎng)絡(luò)、微博等媒介源源不斷地產(chǎn)生的海量的非結(jié)構(gòu)性數(shù)據(jù),才是企業(yè)對(duì)大數(shù)據(jù)的最真實(shí)的感受。根據(jù)IDC的報(bào)告,未來(lái)十年全球大數(shù)據(jù)將增加50倍。僅在2011年,全球就產(chǎn)生了1.8ZB(也即1.8萬(wàn)億GB)的大數(shù)據(jù)。毫無(wú)疑問(wèn),大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲(chǔ)架構(gòu)及數(shù)據(jù)中心基礎(chǔ)設(shè)施等,也會(huì)引發(fā)云計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、商業(yè)智能等應(yīng)用的連鎖反應(yīng)。 大數(shù)據(jù)造就Hadoop 大數(shù)據(jù)也給企業(yè)帶來(lái)了新的機(jī)遇。例如,通過(guò)評(píng)估某位客戶(hù)在網(wǎng)站上的行為,企業(yè)可以更好地了解他們需要什么支持或?qū)ふ沂裁串a(chǎn)品,或者弄清當(dāng)前天氣和其他條件對(duì)于送貨路線和時(shí)間安排的影響。此外,大數(shù)據(jù)分析更加注重實(shí)時(shí)性,特別是涉及到與網(wǎng)上交易或者金融類(lèi)相關(guān)的應(yīng)用。比如,網(wǎng)絡(luò)成衣銷(xiāo)售行業(yè)的在線廣告推廣服務(wù)需要實(shí)時(shí)的對(duì)客戶(hù)的瀏覽記錄進(jìn)行分析,并準(zhǔn)確地進(jìn)行廣告投放。因而,未來(lái)將會(huì)有更多的TB級(jí)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析,這對(duì)計(jì)算和存儲(chǔ)甚至是分析平臺(tái)帶來(lái)了新的市場(chǎng)機(jī)會(huì)。 大數(shù)據(jù)的迅猛增加,使得傳統(tǒng)的數(shù)據(jù)分析軟件面對(duì)當(dāng)今的海量數(shù)據(jù)顯得力不從心。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn),如Apache的Hadoop、LexisNexis的HPCC系統(tǒng)和1010data的以云計(jì)算為基礎(chǔ)的分析服務(wù)。特別是開(kāi)源的Hadoop,它已經(jīng)在過(guò)去5年之中證明了自己是市場(chǎng)中最成功的數(shù)據(jù)處理平臺(tái)。Hadoop將海量數(shù)據(jù)分解成較小的更易訪問(wèn)的批量數(shù)據(jù),并分發(fā)到多臺(tái)服務(wù)器來(lái)分析和處理,這種方式就像把一大塊食物分解成小塊更容易讓人消化一樣。 存儲(chǔ)和服務(wù)器融合支持開(kāi)源Hadoop Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,它可在單一的Linux平臺(tái)上使用,但是運(yùn)行在由機(jī)架服務(wù)器組成的集群才能更大地發(fā)揮它的力量。 由于大數(shù)據(jù)更加強(qiáng)調(diào)實(shí)時(shí)處理,Hadoop集群中的節(jié)點(diǎn)服務(wù)器除了對(duì)計(jì)算性能有更高的要求外,對(duì)存儲(chǔ)也是追求大容量,以便節(jié)點(diǎn)機(jī)直接對(duì)存儲(chǔ)在服務(wù)器內(nèi)部的數(shù)據(jù)進(jìn)行訪問(wèn)和分析。而伴隨著英特爾等相關(guān)廠商的推動(dòng),服務(wù)器和存儲(chǔ)融合的趨勢(shì)愈發(fā)明顯,這也使得存儲(chǔ)服務(wù)器成為了Hadoop集群首選的計(jì)算平臺(tái)。 我們不妨來(lái)看看英特爾是如何推動(dòng)存儲(chǔ)和服務(wù)器的融合的。 首先,x86架構(gòu)為兩者的融合提供基礎(chǔ)。隨著英特爾在處理器芯片的不懈開(kāi)發(fā),x86架構(gòu)不僅僅在服務(wù)器上獲得巨大的成功,很多存儲(chǔ)架構(gòu)也日趨采用英特爾處理器;其次,固態(tài)硬盤(pán)讓服務(wù)器存儲(chǔ)融合更為智能。隨著英特爾等固態(tài)硬盤(pán)廠商的大力推動(dòng)下,固態(tài)硬盤(pán)的出現(xiàn),使得服務(wù)器存儲(chǔ)在計(jì)算方面更趨智能;第三,海量存儲(chǔ)讓服務(wù)器更為充實(shí),TB級(jí)大容量SATA盤(pán)的出現(xiàn),使得服務(wù)器的容量得到極大的提升。 此外,作為SAS技術(shù)的推動(dòng)者之一,英特爾在其Romley平臺(tái)上集成SAS交換功能,這實(shí)際上也是服務(wù)器與存儲(chǔ)走向融合的一種體現(xiàn),這種做法能夠讓系統(tǒng)廠商充分利用系統(tǒng)主板空間和PCI-E端口資源,降低系統(tǒng)開(kāi)發(fā)復(fù)雜性和成本,并讓用戶(hù)在系統(tǒng)使用和系統(tǒng)維護(hù)工作上更加簡(jiǎn)單和容易。 “Hadoop+至強(qiáng)”意味著什么? 以上種種,讓人們看到了服務(wù)器和存儲(chǔ)融合的趨勢(shì)日漸明顯,也使得企業(yè)在構(gòu)建Hadoop集群時(shí)將高存儲(chǔ)容量的x86機(jī)架服務(wù)器當(dāng)作了不二之選。中國(guó)聯(lián)通和百度就是這樣來(lái)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的。 首先說(shuō)說(shuō)聯(lián)通。伴隨著智能手機(jī)的普及,廣大用戶(hù)利用手機(jī)上網(wǎng)和社交越來(lái)越頻繁,這也帶來(lái)了一個(gè)新的挑戰(zhàn):用戶(hù)想清清楚楚了解自己的上網(wǎng)流量究竟用在了哪里?在這種狀況下,聯(lián)通從去年開(kāi)始部署針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶(hù)的上網(wǎng)記錄查詢(xún)系統(tǒng)。 而實(shí)際上,用戶(hù)即使是簡(jiǎn)單地訪問(wèn)一個(gè)新浪的首頁(yè),上網(wǎng)記錄查詢(xún)系統(tǒng)也會(huì)產(chǎn)生20多條記錄,這樣每天產(chǎn)生的數(shù)據(jù)簡(jiǎn)直是天量。此前聯(lián)通曾經(jīng)試圖用甲骨文數(shù)據(jù)庫(kù)來(lái)解決該問(wèn)題,但經(jīng)過(guò)測(cè)試后發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)處理到百億條數(shù)據(jù)時(shí)就顯得無(wú)能為力了,一次簡(jiǎn)單的查詢(xún)可能幾個(gè)小時(shí)都出不來(lái)結(jié)果。 為此,聯(lián)通嘗試采用英特爾至強(qiáng)平臺(tái)的服務(wù)器集群和英特爾Hadoop發(fā)行版組合的方式來(lái)解決該問(wèn)題,并收到了良好的效果。目前,聯(lián)通Hadoop系統(tǒng)集中部署在北京,各省的數(shù)據(jù)每5分鐘生成一個(gè)文件往北京傳輸并被保存和有效管理。采用Hadoop技術(shù)后,用戶(hù)輸入中國(guó)聯(lián)通任何一個(gè)城市的號(hào)碼,其上網(wǎng)記錄只需一兩秒就可以檢索出來(lái)。 中國(guó)聯(lián)通研究院副院長(zhǎng)黃文良介紹,聯(lián)通Hadoop集群系統(tǒng)的“主力軍”是178臺(tái)基于英特爾至強(qiáng)5600處理器的兩路刀片服務(wù)器,每臺(tái)服務(wù)器配備了高達(dá)14TB存儲(chǔ)容量。此外,系統(tǒng)還配有NameNode節(jié)點(diǎn)服務(wù)器、入庫(kù)服務(wù)節(jié)點(diǎn)服務(wù)器、集群監(jiān)控節(jié)點(diǎn)等若干臺(tái),也都是基于英特爾架構(gòu)處理器平臺(tái)的x86服務(wù)器。從聯(lián)通Hadoop解決方案來(lái)看,融合存儲(chǔ)服務(wù)器成為了大數(shù)據(jù)處理的“中流砥柱”。 再來(lái)看看百度。百度是國(guó)內(nèi)較早開(kāi)始探索Hadoop大數(shù)據(jù)解決之道的互聯(lián)網(wǎng)企業(yè)。百度從2007年開(kāi)始使用Hadoop做離線處理業(yè)務(wù),目前有80%的Hadoop集群用作日志處理。同其它互聯(lián)網(wǎng)企業(yè)面臨的相同麻煩是,Hadoop在百度經(jīng)過(guò)5到6年發(fā)展之后,也已經(jīng)走到了一個(gè)岔路口,F(xiàn)在百度每天的作業(yè)數(shù)超過(guò)了千萬(wàn),每天的數(shù)據(jù)處理量在6TB左右。 2011年,百度Hadoop集群的服務(wù)器規(guī)模達(dá)到了1萬(wàn)多臺(tái),2012年計(jì)劃達(dá)到2萬(wàn)臺(tái)。目前百度的服務(wù)器大部分是價(jià)格在2到3萬(wàn)元的基于英特爾架構(gòu)的定制化服務(wù)器,標(biāo)配12個(gè)1TB硬盤(pán),32GB內(nèi)存。百度高級(jí)架構(gòu)師馬如悅介紹,百度的Hadoop集群規(guī)模的目標(biāo)是10萬(wàn)節(jié)點(diǎn),而且需要充分考慮跨機(jī)房部署的問(wèn)題。為此,百度正在對(duì)Hadoop的擴(kuò)展上限進(jìn)行研發(fā),看一旦到了上限是否需要拆分。百度還計(jì)劃將Hadoop升級(jí)到2.0版本,主要是解決Hadoop主節(jié)點(diǎn)的可擴(kuò)展性問(wèn)題。 以上兩則例子充分說(shuō)明,開(kāi)源的Hadoop已經(jīng)成為應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的有效利器,而Hadoop集群的基礎(chǔ)則是大存儲(chǔ)容量的英特爾架構(gòu)服務(wù)器,它們的高性能和大容量,以及直接在機(jī)器內(nèi)部快速傳輸數(shù)據(jù)的特性,成為了大數(shù)據(jù)的應(yīng)對(duì)之道。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |