百度云計算數(shù)據(jù)中心的節(jié)能和降耗 |
發(fā)布時間: 2012/9/10 18:34:41 |
百度云計算數(shù)據(jù)中心的節(jié)能和降耗百度發(fā)展到今天,已經(jīng)擁有5億的網(wǎng)民,每天接收來自全世界138個國家的,超過60億次的搜索請求。搜索引擎公司很大的一個特點就是,要處理互聯(lián)網(wǎng)上幾乎所有的數(shù)據(jù),只要你連接進互聯(lián)網(wǎng),這些數(shù)據(jù)都要被百度這樣的搜索引擎公司索引,然后來供廣大網(wǎng)民來使用。 目前,已經(jīng)處理的數(shù)據(jù)量是百PB量級,而且這個數(shù)量還在以更快的速度發(fā)展。如今,隨著帶寬的進一步提高,以及移動設備的進一步發(fā)展和普及,需要處理的數(shù)據(jù)量增長得越來越快,特別是近幾年來,多媒體數(shù)據(jù)大量產(chǎn)生。占得空間要大很多,而且對上傳的頻率和速度要求也比以前高很多。一個工作就是對數(shù)據(jù)中心進行節(jié)能減排,另一個工作就是數(shù)據(jù)中心的設計。 百度研究數(shù)據(jù)中心的設計,實際是研究如何把這些分散的服務器資源集中管理起來,然后將這些計算和存儲資源進行統(tǒng)一的調(diào)度和分配。 從更高層面看,在云計算時代,或者說互聯(lián)網(wǎng)發(fā)展得比較成熟的時候,整個的計算體系都在發(fā)生一些變化。 百度主要關注數(shù)據(jù)中心的幾個方面。 第一個就是容量,由于互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,用戶和數(shù)據(jù)量隨之激增,百度的后臺在不斷擴容。由最開始的幾百臺服務器規(guī)模的單體數(shù)據(jù)中心,發(fā)展到現(xiàn)在的十萬量級服務器規(guī)模的單體數(shù)據(jù)中心。 第二個是密度。如果密度問題不解決的話,服務器所占用的空間、消耗的能源都是非常巨大的。過去是單立一個標準的服務器,發(fā)展到今天是幾十個服務器在一個機柜里面。 第三個是擴展性。由于互聯(lián)網(wǎng)的快速發(fā)展,使得數(shù)據(jù)中心數(shù)量高速增長,由一開始的單體建筑,發(fā)展到數(shù)據(jù)中心集群。 第四個是傳輸帶寬方面的要求。包括帶寬的穩(wěn)定性、傳輸速率等。 第五個是快速交付能力。交付能力主要指的是部署數(shù)據(jù)中心。哪怕是部署一個一萬臺服務器規(guī)模的數(shù)據(jù)中心,都是一個極其復雜的事情,這里涉及每一個服務器的安裝、每一個服務器里面的操作系統(tǒng)和一些軟件的安裝。如果說每一天能夠部署一千臺,一萬多臺服務器只要半個多月時間就可以部署完成。 在服務器很少的情況下,對服務器減排、提高能效,并不會顯得非常重要。但是,隨著互聯(lián)網(wǎng)的高速發(fā)展,特別數(shù)據(jù)的爆炸式正在,百度服務器的規(guī)模每年增長速度超過了100%.這意味著,百度每一年買的服務器的數(shù)量比歷史上庫存下來服務器的總數(shù)還要多,比歷史總數(shù)還要多。 為什么要關注數(shù)據(jù)中心的節(jié)能問題,最根本的因素是考慮成本。成本包括三個方面,第一個是購置相關設備,包括服務、器網(wǎng)絡設備,以及其他的一些配件。第二塊成本是運營成本,第三塊是用電的成本。從這三塊成本來看,服務器的購置成本約占其中的一半,也就是說一臺服務器假如是三萬元,在整個服務器的生命周期里面,要付出約六萬元的總價,這就是為什么要關心服務器,關心數(shù)據(jù)中心節(jié)能降耗,以及維護成本的問題。 那么以單體10萬臺服務器規(guī)模的數(shù)據(jù)中心來算,PUE每降0.1,百度每年節(jié)約一千萬元的成本。通過多年的摸索和探索,百度自建了自己的數(shù)據(jù)中心,百度數(shù)據(jù)中心的PUE由傳統(tǒng)的2.5左右,降到了現(xiàn)在的1.3. 百度已成長比較大型的企業(yè),國家各個部門對百度的期望也很高,百度的搜集引擎不僅僅是公司的盈利手段,更已經(jīng)成為一種非常重要的社會資源。在十多年的高速發(fā)展中,百度在各個方面所做出的各種努力,對社會起到了積極的示范效應,數(shù)據(jù)中心的節(jié)能建設就是其中一個方面。 傳統(tǒng)的數(shù)據(jù)中心是比較粗放型的,它表現(xiàn)在有很多的冗余設備以及設備的負載偏低,制冷設備的利用率比較低,這造成了資源浪費。一個方面,是設備本身的浪費,通常采用的是標準化的服務器。標準的服務器里面有很多的設備是業(yè)務所不需要的;另一個方面,浪費了大量的電能。 一般來講,在傳統(tǒng)的數(shù)據(jù)中心統(tǒng)計中,一個服務器利用率不到20%,而云計算時代的數(shù)據(jù)中心,就是要充分利用每一臺服務器的能力。 首先,在服務器方面,首先采用定制化的硬件。定制化就是把在標準服務器里,業(yè)務所用不到的那些設備去掉,同時利用一些高效的設備,以替代傳統(tǒng)的設備。其次,我們采用平衡設計方式。在服務器平衡設計方面,目前流行的一個趨勢就是多核高頻率服務器,但是如果僅是CPU的頻率很高,而磁盤、IO的能力還很低,這樣就會導致了CPU能力的浪費。在設計服務器的時候,通常會針對不同業(yè)務,對CPU、IO設備等進行均衡設計。 第三,將多臺服務器集中放在一個機柜里面。原來每一個服務器都有自己的電源、風扇。而把幾十臺服務器集中到一個ROK里頭,然后用一個大的風扇、大的電源,對這些服務器進行集中供電、集中散熱。這樣,作為一個單個服務器來講,平均能耗就降低很多。 第四,采用了直流高壓供電。這種供電方式省去了兩個轉(zhuǎn)換,第一個是在UPS階段的轉(zhuǎn)換,第二個就是在服務器環(huán)節(jié)的轉(zhuǎn)換。因為每次轉(zhuǎn)換都是有這個電能損耗的,損失的電能是10%左右。而采用了高壓直流供電之后,就沒有了這10%的損耗。 第五,在輔助設備方面,輔助設備主要是制冷設備。前面兩個方法都是從硬件方面解決性能問題,還從軟件架構(gòu)層面提高了服務器的使用效率。提高效率的手段主要是兩個方面:資源池化和單點多任務化。 本文出自:億恩科技【mszdt.com】 |