基于英特爾平臺的Hadoop私有云架構 |
發(fā)布時間: 2012/7/3 19:27:07 |
中國IDC圈12月13日報道:提到云計算,我們通常能夠與Google、微軟、雅虎這樣的業(yè)界大腕相聯(lián)系,與中小企業(yè)無緣。而實際上,得益于諸如Hadoop這樣的開源軟件,廣大中小企業(yè)也可以搭建自己的私有云,并相當程度的滿足自身需求。這篇文章會從實踐出發(fā),談一談企業(yè)如何在基于英特爾的開放架構上架設Hadoop私有云系統(tǒng),以及測試實施的效果到底如何。 目前系統(tǒng)面臨的問題 從過去來看,企業(yè)系統(tǒng)當中存在相當數(shù)量的應用,各自承載不同類型的大計算量任務,比如分詞、產(chǎn)品分析、新詞發(fā)現(xiàn)等等。 而目前的系統(tǒng)由于是基于單機的實現(xiàn)的,盡管單服務器性能也足夠強,但對于多任務的執(zhí)行,效率實在相當?shù)拖,某物流公司僅當月的產(chǎn)品分析一項就花了近300個機時。 如果沿著現(xiàn)在的方式走下去的話,那么開發(fā)成本,維護成本,硬件投入,以及跨項目組的溝通協(xié)調成本都會持續(xù)提升;而硬件使用效率跟開發(fā)人員生產(chǎn)率卻會下降。從這點出發(fā),需要構造一個通用的分布式計算框架引擎作為新的基礎計算架構,來滿足任務需求。 系統(tǒng)需求 1、通用性——系統(tǒng)需要實現(xiàn)任務分發(fā),負載平衡,錯誤恢復等分布式計算的基礎工作,一個計算密集型的任務可以通過簡易的封裝,部署在系統(tǒng)執(zhí)行,在同一時間內,系統(tǒng)可以執(zhí)行不同類型的任務,由此達到對服務器資源的最有效利用,從這一點上來看,系統(tǒng)需要的是一個開放式的基礎架構。 2、穩(wěn)定性——系統(tǒng)本身的運行穩(wěn)定; 3、可擴展性——主要是指Scale Out的能力,需要新的服務器資源可以簡易的集成進集群,投入應用; 4、靈活性,除去通過API或者通過擴展框架來將任務部署在系統(tǒng)中外,也要支持利用Python等腳本語言進行輕量級的開發(fā),來應對一些ad-hoc的任務; 5、支持對大規(guī)模數(shù)據(jù)量的處理,以及對最終結果的集中收集。 英特爾平臺的Hadoop私有云解決方案 從開放行、穩(wěn)定性和擴展性等多方面角度考慮,基于Intel至強處理器平臺是新的系統(tǒng)架構的選擇,整個系統(tǒng)建立在Intel至強5600架構平臺之上,在開源的分布式計算框架Hadoop上定制開發(fā)。Hadoop是一套對Google著名MapReduce模式的實現(xiàn),用最簡單的話說,MapReduce就是把任務數(shù)據(jù)拆分成多塊,分別在不同的服務器上進行處理,最后再把中間結果聚合起來,得到最終結果。 從應用加載來看,所有的服務器資源根據(jù)應用被劃分,運行穩(wěn)定可靠,如果中間因為網(wǎng)絡或者小部分服務器本身故障,Hadoop的內部機制可以自動將任務分配到正常機器上運行,以保證所有任務最終的順利完成。 另外,由于所有的計算任務會在單獨的線程中進行,所以可以充分利用至強5600的多線程和超線程技術。此外,配合英特爾QPI總線設計,處理器間的連接帶寬提升至25.6GB/s,CPU與內存的數(shù)據(jù)帶寬也達到了32GB/s,經(jīng)在四核的服務器上測試,由于應用本身沒有對多核進行優(yōu)化,因此在主程序執(zhí)行時,即便是單機性能也提高了近50%. 總結 基于Hadoop的開放平臺私有云架構的戰(zhàn)略意義 1、大幅減少現(xiàn)有計算密集型任務的時間,大幅提高服務器利用效率; 2、使未來對計算要求更高的業(yè)務成為可能,這樣的架構允許任意添加新的X86服務器就能擴充計算資源,而不會增加額外的管理和維護成本。 3. 最后,系統(tǒng)除了支持Java,也支持Python和Bash Shell這樣輕量級的腳本語言,也使得開發(fā)人員能夠利用廉價而高性能的計算平臺進行業(yè)務創(chuàng)新。 本文出自:億恩科技【mszdt.com】 |