大數(shù)據(jù)市場需求火爆 Hadoop 2.0即將發(fā)布 |
發(fā)布時間: 2012/9/4 17:20:04 |
隨著越來越多的公司開始使用Hadoop處理大數(shù)據(jù),因此我們預測Hadoop不久就會推出2.0版本。
如今,Apache的Hadoop技術在幫助企業(yè)管理海量數(shù)據(jù)中變得越來越關鍵。包括NASA、推特和Netflix等用戶對這一開源分布式計算平臺的依賴性越來越大。 Hadoop作為一種處理大數(shù)據(jù)的機制已經(jīng)獲得了越來越多的支持。因為企業(yè)計算機系統(tǒng)中的數(shù)據(jù)量正在快速增長,企業(yè)開始嘗試從這些海量數(shù)據(jù)中獲得派生價值。由于認識到了Hadoop的潛力,用戶開始在使用現(xiàn)有Hadoop平臺技術的同時,積極研發(fā)自己的技術以對Hadoop堆棧進行補充。 Hadoop的企業(yè)使用現(xiàn)狀與未來 NASA希望Hadoop處理眾多項目中的龐大數(shù)據(jù),如SKA(平方千米陣列)星空圖像。這些圖像在未來十年內的生成速度將達到700TBps。NASA高級計算機專家Chris Mattmann稱,包括Hadoop在內的數(shù)據(jù)系統(tǒng)和Apache OODT 等技術將用于應對這些海量數(shù)據(jù)負載, 推特的數(shù)據(jù)專家Oscar Boykin稱:“推特是Hadoop的一個大客戶。所有(向用戶提供定制化推薦的)相關產品都在一定程度上與Hadoop進行著互動。”公司使用Hadoop的時間已經(jīng)有四年了,并且研發(fā)了Scalding。Scalding為一款Scala庫,旨在讓編寫Hadoop MapReduce的工作變得更容易。該產品建立在Cascading Java庫的頂層,旨在對Hadoop的復雜性進行概括。 Hadoop的子項目包括MapReduce、HDFS(Hadoop分布式文件系統(tǒng))和Common。MapReduce為用于處理計算集群上的大型數(shù)據(jù)集的軟件框架,HDFS提供了對應用數(shù)據(jù)的高速訪問,Common則為支持其它Hadoop子項目提供了一些實用工具。電影租賃服務商Netflix已經(jīng)開始使用用于配置管理的Hadoop相關技術Apache ZooKeeper。Netflix 高級平臺工程師Jordan Zimmerman稱:“我們在分布式鎖、部分隊列排列和領導人選舉等所有類型的工作中都使用了這種技術,以優(yōu)化服務活動。我們針對ZooKeeper開發(fā)了一個開源客戶端,我們稱其為Curator。這個客戶端作為一個開發(fā)者庫與ZooKeeper相連。” Tagged 高級數(shù)據(jù)工程師Rich McKinley 稱,Tagged社交網(wǎng)絡正在使用Hadoop技術用于數(shù)據(jù)分析,處理每天所生成的近0.5個太字節(jié)的新數(shù)據(jù)。Hadoop還正在被用于Greenplum數(shù)據(jù)庫容量之外的任務中。目前Tagged仍然在使用Greenplum數(shù)據(jù)庫,McKinley稱:“我們希望僅通過擴展讓Hadoop做更多的工作。” 盡管大家都在稱贊Hadoop,但是部分用戶認為仍然有一些問題需要解決,如在可靠性和工作追蹤上的不足。Tagged的McKinley指出了在延時上存在的問題。“獲得數(shù)據(jù)的時間應當非?,然而每個人的最大抱怨是其進行查詢時的延遲太高。”Tagged目前正在使用另一個Hadoop 派生項目Apache Hive進行查詢。他稱“Hadoop需要花上數(shù)分鐘才能給出結果,而Greenplum給出結果只需要數(shù)秒鐘。但是與Greenplum相比,Hadoop更為便宜。” 本文出自:億恩科技【mszdt.com】 |