解密大數(shù)據(jù)良藥——Hadoop的十二個(gè)事實(shí) |
發(fā)布時(shí)間: 2012/9/4 17:21:15 |
現(xiàn)如今,Apache Hadoop已經(jīng)無人不知無人不曉。當(dāng)年雅虎搜索工程師Doug Cutting開發(fā)出這個(gè)用以創(chuàng)建分布式計(jì)算機(jī)環(huán)境的開源軟件庫,并以自己兒子的大象玩偶為其命名的時(shí)候,誰能想到它有一天會(huì)占據(jù)“大數(shù)據(jù)”技術(shù)的頭把交椅呢。
雖然Hadoop伴隨大數(shù)據(jù)一同火爆起來,但相信還是有許多用戶對(duì)于它不甚了解。在上周名的TDWI解決方案峰會(huì)中, TDWI研究主任兼行業(yè)分析師Philip Russom發(fā)表了“關(guān)于Hadoop的12點(diǎn)事實(shí)”的主題演講,編輯在本文中將對(duì)其精華內(nèi)容進(jìn)行總結(jié),希望對(duì)您進(jìn)一步了解Hadoop有所幫助。 事實(shí)1:Hadoop是由多個(gè)產(chǎn)品組成的。 人們在談?wù)揌adoop的時(shí)候,常常把它當(dāng)做單一產(chǎn)品來看待,但事實(shí)上它由多個(gè)不同的產(chǎn)品共同組成。 Russom說:“Hadoop是一系列開源產(chǎn)品的組合,這些產(chǎn)品都是Apache軟件基金會(huì)的項(xiàng)目。” 一提到Hadoop,人們往往將其與MapReduce放在一起,但其實(shí)HDFS和MapReduce一樣,也是Hadoop的基礎(chǔ)。 事實(shí)2:Apache Hadoop是開源技術(shù),但專有廠商也提供Hadoop產(chǎn)品。 由于Hadoop屬于開源技術(shù),可免費(fèi)下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發(fā)行版本。 這些特別發(fā)行版本一般都會(huì)有一些附加特性,比如高級(jí)管理工具及相關(guān)的支持維護(hù)服務(wù)。有人可能對(duì)此嗤之以鼻:既然開源社區(qū)是免費(fèi)的,那么我們?yōu)槭裁催要為它的服務(wù)付費(fèi)?Russom解釋道,這些版本的HDFS對(duì)一些IT部門更合適,特別是企業(yè)IT系統(tǒng)已經(jīng)相對(duì)成熟的用戶。 事實(shí)3:Hadoop是一個(gè)生態(tài)系統(tǒng),而非一個(gè)產(chǎn)品。 Hadoop是由開源社區(qū)和各個(gè)廠商共同開發(fā)和推動(dòng)的。具體說來,廠商的Hadoop的產(chǎn)品其結(jié)構(gòu)化和關(guān)系性更強(qiáng)一些。 Russom說:“一直以來報(bào)表平臺(tái)、數(shù)據(jù)集成平臺(tái)在為更新的平臺(tái)提供各種各樣的接口,Hadoop當(dāng)然也不例外。” 事實(shí)4:HDFS是文件系統(tǒng),而不是數(shù)據(jù)庫管理系統(tǒng)。 Russom最無法忍受的,就是人們常常把二者混為一談。能夠?qū)?shù)據(jù)集進(jìn)行管理是數(shù)據(jù)管理系統(tǒng)很重要的特性之一,這一點(diǎn)HDFS是不具備的。 數(shù)據(jù)庫管理系統(tǒng)中,我們通過查詢索引可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的隨機(jī)訪問,它往往處理的是結(jié)構(gòu)化的數(shù)據(jù),而在Hadoop中不會(huì)處理這樣的數(shù)據(jù)類型。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |