Hadoop白皮書(shū)(1):分布式文件系統(tǒng)HDFS簡(jiǎn)介 |
發(fā)布時(shí)間: 2012/9/8 13:47:52 |
QQ1355017510 隨著信息系統(tǒng)的快速發(fā)展,海量的信息需要可靠存儲(chǔ)的同時(shí),還能被大量的使用者快速地訪問(wèn)。傳統(tǒng)的存儲(chǔ)方案已經(jīng)從構(gòu)架上越來(lái)越難以適應(yīng)近幾年來(lái)的信息系統(tǒng)業(yè)務(wù)的飛速發(fā)展,成為了業(yè)務(wù)發(fā)展的瓶頸和障礙。 HDFS 通過(guò)一個(gè)高效的分布式算法,將數(shù)據(jù)的訪問(wèn)和存儲(chǔ)分布在大量服務(wù)器之中,在可靠地多備份存儲(chǔ)的同時(shí)還能將訪問(wèn)分布在集群中的各個(gè)服務(wù)器之上,是傳統(tǒng)存儲(chǔ)構(gòu)架的一個(gè)顛覆性的發(fā)展。HDFS 可以提供以下特性: • 可自我修復(fù)的分布式文件存儲(chǔ)系統(tǒng) • 高可擴(kuò)展性,無(wú)需停機(jī)動(dòng)態(tài)擴(kuò)容 • 高可靠性,數(shù)據(jù)自動(dòng)檢測(cè)和復(fù)制 • 高吞吐量訪問(wèn),消除訪問(wèn)瓶頸 • 使用低成本存儲(chǔ)和服務(wù)器構(gòu)建 分布式文件系統(tǒng) HDFS 特性 高吞吐量訪問(wèn) HDFS 的每個(gè)數(shù)據(jù)塊分布在不同機(jī)架的一組服務(wù)器之上,在用戶訪問(wèn)時(shí),HDFS 將會(huì)計(jì)算使用網(wǎng)絡(luò)最近的和訪問(wèn)量最小的服務(wù)器給用戶提供訪問(wèn)。由于數(shù)據(jù)塊的每個(gè)復(fù)制拷貝都能提供給用戶訪問(wèn),而不是從單數(shù)據(jù)源讀取,HDFS 對(duì)于單數(shù)據(jù)塊的訪問(wèn)將是傳統(tǒng)存儲(chǔ)方案的數(shù)倍。 對(duì)于一個(gè)較大的文件,HDFS 將文件的不同部分存放于不同服務(wù)器之上。在訪問(wèn)大型文件時(shí),系統(tǒng)可以并行從服務(wù)器陣列中的多個(gè)服務(wù)器并行讀入,增加了大文件讀入的訪問(wèn)帶寬。 通過(guò)以上實(shí)現(xiàn),HDFS 通過(guò)分布式計(jì)算的算法,將數(shù)據(jù)訪問(wèn)均攤到服務(wù)器陣列中的每個(gè)服務(wù)器的多個(gè)數(shù)據(jù)拷貝之上,單個(gè)硬盤或服務(wù)器的吞吐量限制都可以數(shù)倍甚至數(shù)百倍的突破,提供了極高的數(shù)據(jù)吞吐量。
無(wú)縫容量擴(kuò)充 HDFS 將文件的數(shù)據(jù)塊分配信息存放在NameNode 服務(wù)器之上,文件數(shù)據(jù)塊的信息分布地存放在 DataNode 服務(wù)器上。當(dāng)整個(gè)系統(tǒng)容量需要擴(kuò)充時(shí),只需要增加DataNode 的數(shù)量,系統(tǒng)會(huì)自動(dòng)地實(shí)時(shí)將新的服務(wù)器匹配進(jìn)整體陣列之中。之后,文件的分布算法會(huì)將數(shù)據(jù)塊搬遷到新的DataNode 之中,不需任何系統(tǒng)宕機(jī)維護(hù)或人工干預(yù)。通過(guò)以上實(shí)現(xiàn),HDFS 可以做到在不停止服務(wù)的情況下實(shí)時(shí)地加入新的服務(wù)器作為分布式文件系統(tǒng)的容量升級(jí),不需要人工干預(yù)文件的重新分布。 高度容錯(cuò) HDFS 文件系統(tǒng)假設(shè)系統(tǒng)故障(服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)故障等)是常態(tài),而不是異常。因此通過(guò)多方面保證數(shù)據(jù)的可靠性。數(shù)據(jù)在寫(xiě)入時(shí)被復(fù)制多份,并且可以通過(guò)用戶自定義的復(fù)制策略分布到物理位置不同的服務(wù)器上;數(shù)據(jù)在讀寫(xiě)時(shí)將自動(dòng)進(jìn)行數(shù)據(jù)的校驗(yàn),一旦發(fā)現(xiàn)數(shù)據(jù)校驗(yàn)錯(cuò)誤將重新進(jìn)行復(fù)制;HDFS 系統(tǒng)在后臺(tái)自動(dòng)連續(xù)的檢測(cè)數(shù)據(jù)的一致性,并維持?jǐn)?shù)據(jù)的副本數(shù)量在指定的復(fù)制水平上。
本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |