幫助中心

新手上路

代理登陸

投訴建議

加盟合作

常用文檔

融合存儲(chǔ)服務(wù)器：應(yīng)對(duì)不同類(lèi)型大數(shù)據(jù)挑戰(zhàn)

發(fā)布時(shí)間: 2012/8/14 17:50:51

大數(shù)據(jù)正和云計(jì)算一起，推動(dòng)著整個(gè)IT產(chǎn)業(yè)的發(fā)展。所謂大數(shù)據(jù)，IDC對(duì)其的定義為：“為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代的架構(gòu)和技術(shù)。”大數(shù)據(jù)具有高容量、高價(jià)值、多樣化和持續(xù)性的特點(diǎn)，尤其是非結(jié)構(gòu)化的特性，使得大數(shù)據(jù)的保存、管理、挖掘等成為了當(dāng)前企業(yè)面臨的挑戰(zhàn)。而正因?yàn)槿绱�，大�?shù)據(jù)催生了一個(gè)迅猛發(fā)展的市場(chǎng)。有關(guān)數(shù)據(jù)顯示， 2010年全球大數(shù)據(jù)以及相關(guān)硬件、軟件和服務(wù)市場(chǎng)僅為30億美元，而到2015年該市場(chǎng)的規(guī)模將超過(guò)170億美元，平均年增長(zhǎng)速度超過(guò)50%。

而智能手機(jī)、視頻、社交網(wǎng)絡(luò)、微博等媒介源源不斷地產(chǎn)生的海量的非結(jié)構(gòu)性數(shù)據(jù)，才是企業(yè)對(duì)大數(shù)據(jù)的最真實(shí)的感受。根據(jù)IDC的報(bào)告，未來(lái)十年全球大數(shù)據(jù)將增加50倍。僅在2011年，全球就產(chǎn)生了1.8ZB(也即1.8萬(wàn)億GB)的大數(shù)據(jù)。毫無(wú)疑問(wèn)，大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲(chǔ)架構(gòu)及數(shù)據(jù)中心基礎(chǔ)設(shè)施等，也會(huì)引發(fā)云計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、商業(yè)智能等應(yīng)用的連鎖反應(yīng)。

大數(shù)據(jù)造就Hadoop

大數(shù)據(jù)也給企業(yè)帶來(lái)了新的機(jī)遇。例如，通過(guò)評(píng)估某位客戶(hù)在網(wǎng)站上的行為，企業(yè)可以更好地了解他們需要什么支持或?qū)ふ沂裁串a(chǎn)品，或者弄清當(dāng)前天氣和其他條件對(duì)于送貨路線和時(shí)間安排的影響。此外，大數(shù)據(jù)分析更加注重實(shí)時(shí)性，特別是涉及到與網(wǎng)上交易或者金融類(lèi)相關(guān)的應(yīng)用。比如，網(wǎng)絡(luò)成衣銷(xiāo)售行業(yè)的在線廣告推廣服務(wù)需要實(shí)時(shí)的對(duì)客戶(hù)的瀏覽記錄進(jìn)行分析，并準(zhǔn)確地進(jìn)行廣告投放。因而，未來(lái)將會(huì)有更多的TB級(jí)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析，這對(duì)計(jì)算和存儲(chǔ)甚至是分析平臺(tái)帶來(lái)了新的市場(chǎng)機(jī)會(huì)。

大數(shù)據(jù)的迅猛增加，使得傳統(tǒng)的數(shù)據(jù)分析軟件面對(duì)當(dāng)今的海量數(shù)據(jù)顯得力不從心。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn)，如Apache的Hadoop、LexisNexis的HPCC系統(tǒng)和1010data的以云計(jì)算為基礎(chǔ)的分析服務(wù)。特別是開(kāi)源的Hadoop，它已經(jīng)在過(guò)去5年之中證明了自己是市場(chǎng)中最成功的數(shù)據(jù)處理平臺(tái)。Hadoop將海量數(shù)據(jù)分解成較小的更易訪問(wèn)的批量數(shù)據(jù)，并分發(fā)到多臺(tái)服務(wù)器來(lái)分析和處理，這種方式就像把一大塊食物分解成小塊更容易讓人消化一樣。

存儲(chǔ)和服務(wù)器融合支持開(kāi)源Hadoop

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架，它可在單一的Linux平臺(tái)上使用，但是運(yùn)行在由機(jī)架服務(wù)器組成的集群才能更大地發(fā)揮它的力量。

由于大數(shù)據(jù)更加強(qiáng)調(diào)實(shí)時(shí)處理，Hadoop集群中的節(jié)點(diǎn)服務(wù)器除了對(duì)計(jì)算性能有更高的要求外，對(duì)存儲(chǔ)也是追求大容量，以便節(jié)點(diǎn)機(jī)直接對(duì)存儲(chǔ)在服務(wù)器內(nèi)部的數(shù)據(jù)進(jìn)行訪問(wèn)和分析。而伴隨著英特爾等相關(guān)廠商的推動(dòng)，服務(wù)器和存儲(chǔ)融合的趨勢(shì)愈發(fā)明顯，這也使得存儲(chǔ)服務(wù)器成為了Hadoop集群首選的計(jì)算平臺(tái)。

我們不妨來(lái)看看英特爾是如何推動(dòng)存儲(chǔ)和服務(wù)器的融合的。

首先，x86架構(gòu)為兩者的融合提供基礎(chǔ)。隨著英特爾在處理器芯片的不懈開(kāi)發(fā)，x86架構(gòu)不僅僅在服務(wù)器上獲得巨大的成功，很多存儲(chǔ)架構(gòu)也日趨采用英特爾處理器;其次，固態(tài)硬盤(pán)讓服務(wù)器存儲(chǔ)融合更為智能。隨著英特爾等固態(tài)硬盤(pán)廠商的大力推動(dòng)下，固態(tài)硬盤(pán)的出現(xiàn)，使得服務(wù)器存儲(chǔ)在計(jì)算方面更趨智能;第三，海量存儲(chǔ)讓服務(wù)器更為充實(shí)，TB級(jí)大容量SATA盤(pán)的出現(xiàn)，使得服務(wù)器的容量得到極大的提升。

此外，作為SAS技術(shù)的推動(dòng)者之一，英特爾在其Romley平臺(tái)上集成SAS交換功能，這實(shí)際上也是服務(wù)器與存儲(chǔ)走向融合的一種體現(xiàn)，這種做法能夠讓系統(tǒng)廠商充分利用系統(tǒng)主板空間和PCI-E端口資源，降低系統(tǒng)開(kāi)發(fā)復(fù)雜性和成本，并讓用戶(hù)在系統(tǒng)使用和系統(tǒng)維護(hù)工作上更加簡(jiǎn)單和容易。

“Hadoop+至強(qiáng)”意味著什么?

以上種種，讓人們看到了服務(wù)器和存儲(chǔ)融合的趨勢(shì)日漸明顯，也使得企業(yè)在構(gòu)建Hadoop集群時(shí)將高存儲(chǔ)容量的x86機(jī)架服務(wù)器當(dāng)作了不二之選。中國(guó)聯(lián)通和百度就是這樣來(lái)應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的。

首先說(shuō)說(shuō)聯(lián)通。伴隨著智能手機(jī)的普及，廣大用戶(hù)利用手機(jī)上網(wǎng)和社交越來(lái)越頻繁，這也帶來(lái)了一個(gè)新的挑戰(zhàn)：用戶(hù)想清清楚楚了解自己的上網(wǎng)流量究竟用在了哪里?在這種狀況下，聯(lián)通從去年開(kāi)始部署針對(duì)移動(dòng)互聯(lián)網(wǎng)用戶(hù)的上網(wǎng)記錄查詢(xún)系統(tǒng)。

而實(shí)際上，用戶(hù)即使是簡(jiǎn)單地訪問(wèn)一個(gè)新浪的首頁(yè)，上網(wǎng)記錄查詢(xún)系統(tǒng)也會(huì)產(chǎn)生20多條記錄，這樣每天產(chǎn)生的數(shù)據(jù)簡(jiǎn)直是天量。此前聯(lián)通曾經(jīng)試圖用甲骨文數(shù)據(jù)庫(kù)來(lái)解決該問(wèn)題，但經(jīng)過(guò)測(cè)試后發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)處理到百億條數(shù)據(jù)時(shí)就顯得無(wú)能為力了，一次簡(jiǎn)單的查詢(xún)可能幾個(gè)小時(shí)都出不來(lái)結(jié)果。

為此，聯(lián)通嘗試采用英特爾至強(qiáng)平臺(tái)的服務(wù)器集群和英特爾Hadoop發(fā)行版組合的方式來(lái)解決該問(wèn)題，并收到了良好的效果。目前，聯(lián)通Hadoop系統(tǒng)集中部署在北京，各省的數(shù)據(jù)每5分鐘生成一個(gè)文件往北京傳輸并被保存和有效管理。采用Hadoop技術(shù)后，用戶(hù)輸入中國(guó)聯(lián)通任何一個(gè)城市的號(hào)碼，其上網(wǎng)記錄只需一兩秒就可以檢索出來(lái)。

中國(guó)聯(lián)通研究院副院長(zhǎng)黃文良介紹，聯(lián)通Hadoop集群系統(tǒng)的“主力軍”是178臺(tái)基于英特爾至強(qiáng)5600處理器的兩路刀片服務(wù)器，每臺(tái)服務(wù)器配備了高達(dá)14TB存儲(chǔ)容量。此外，系統(tǒng)還配有NameNode節(jié)點(diǎn)服務(wù)器、入庫(kù)服務(wù)節(jié)點(diǎn)服務(wù)器、集群監(jiān)控節(jié)點(diǎn)等若干臺(tái)，也都是基于英特爾架構(gòu)處理器平臺(tái)的x86服務(wù)器。從聯(lián)通Hadoop解決方案來(lái)看，融合存儲(chǔ)服務(wù)器成為了大數(shù)據(jù)處理的“中流砥柱”。

再來(lái)看看百度。百度是國(guó)內(nèi)較早開(kāi)始探索Hadoop大數(shù)據(jù)解決之道的互聯(lián)網(wǎng)企業(yè)。百度從2007年開(kāi)始使用Hadoop做離線處理業(yè)務(wù)，目前有80%的Hadoop集群用作日志處理。同其它互聯(lián)網(wǎng)企業(yè)面臨的相同麻煩是，Hadoop在百度經(jīng)過(guò)5到6年發(fā)展之后，也已經(jīng)走到了一個(gè)岔路口�，F(xiàn)在百度每天的作業(yè)數(shù)超過(guò)了千萬(wàn)，每天的數(shù)據(jù)處理量在6TB左右。

2011年，百度Hadoop集群的服務(wù)器規(guī)模達(dá)到了1萬(wàn)多臺(tái)，2012年計(jì)劃達(dá)到2萬(wàn)臺(tái)。目前百度的服務(wù)器大部分是價(jià)格在2到3萬(wàn)元的基于英特爾架構(gòu)的定制化服務(wù)器，標(biāo)配12個(gè)1TB硬盤(pán)，32GB內(nèi)存。百度高級(jí)架構(gòu)師馬如悅介紹，百度的Hadoop集群規(guī)模的目標(biāo)是10萬(wàn)節(jié)點(diǎn)，而且需要充分考慮跨機(jī)房部署的問(wèn)題。為此，百度正在對(duì)Hadoop的擴(kuò)展上限進(jìn)行研發(fā)，看一旦到了上限是否需要拆分。百度還計(jì)劃將Hadoop升級(jí)到2.0版本，主要是解決Hadoop主節(jié)點(diǎn)的可擴(kuò)展性問(wèn)題。

以上兩則例子充分說(shuō)明，開(kāi)源的Hadoop已經(jīng)成為應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的有效利器，而Hadoop集群的基礎(chǔ)則是大存儲(chǔ)容量的英特爾架構(gòu)服務(wù)器，它們的高性能和大容量，以及直接在機(jī)器內(nèi)部快速傳輸數(shù)據(jù)的特性，成為了大數(shù)據(jù)的應(yīng)對(duì)之道。

本文出自：億恩科技【mszdt.com】

服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)！虛擬主機(jī)域名注冊(cè)頂級(jí)提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]

激情五月天婷婷,亚洲愉拍一区二区三区,日韩视频一区,a√天堂中文官网8

服務(wù)器租用

服務(wù)器托管

機(jī)柜批發(fā)

云服務(wù)器

建站俠

空間/域名

安全保姆

幫助類(lèi)別

幫助中心

文章內(nèi)容

融合存儲(chǔ)服務(wù)器：應(yīng)對(duì)不同類(lèi)型大數(shù)據(jù)挑戰(zhàn)

同類(lèi)文章

億恩公告

在線客服