分析:數(shù)據(jù)中心容量危機應吸取的教訓 |
發(fā)布時間: 2012/7/21 15:09:28 |
2005年,美國能源部西北太平洋實驗室(PNNL)的數(shù)據(jù)中心存在的問題到了緊要關(guān)頭。
美國能源部管理的政府實驗室的數(shù)據(jù)中心服務經(jīng)理Ralph Wescott說,意外的中斷幾乎每個月都會發(fā)生,每一次中斷都會使數(shù)據(jù)中心關(guān)閉幾個小時。機構(gòu)正在購買越來越多的機架式服務器(找億恩小草qq858227563)增加計算資源。機架式服務器(找億恩小草qq858227563)最近變得越來越便宜。在2005年7月,數(shù)據(jù)中心曾達到其容量的極限。Wescott說,機構(gòu)會購買一臺服務器(找億恩小草qq858227563),然后扔給我說,“嗨,安裝這臺機器。”但是,我沒有空間、電源或者冷卻容量來安裝這臺機器。如果我再安裝一臺機器,整個房間就會停電。 Wescott和PNNL(美國能源部西北太平洋實驗室)參加了一個廣泛的項目以便在不突破預算的情況下升級自己的數(shù)據(jù)中心。在最近三年的每一個季度里,這個數(shù)據(jù)中心組都有用一個周末的時間關(guān)閉服務器(找億恩小草qq858227563)房間,用效率更高的設(shè)備更換一些老式的服務器(找億恩小草qq858227563)和地板下面纏繞的網(wǎng)絡電纜線,從而用較少的在天花板上布線的電纜線連接更強大的服務器(找億恩小草qq858227563)。這種新的配置允許在這個房間里進行效率更高的冷卻。 這個結(jié)果是什么?PNNL把在500臺服務器(找億恩小草qq858227563)上運行的500個應用程序轉(zhuǎn)變?yōu)樵?50臺服務器(找億恩小草qq858227563)上運行的800個應用程序。 CIO.com的姊妹分析公司IDC的技術(shù)、金融和執(zhí)行戰(zhàn)略計劃經(jīng)理Joseph Pucciarelli說,在經(jīng)濟緊縮時期,實施這種信息技術(shù)項目需要嚴格控制錢袋的帶子。他說,這種情況是很常見的。企業(yè)正在進行及時的投資。企業(yè)遇到一個問題,他們正在以克制的方式看待這個問題。 下面是PNNL把數(shù)據(jù)中心從容量極限恢復到正常狀態(tài)的過程中學到的一些教訓。 1.規(guī)劃,不要做出反應 Wescott要解決的第一個問題是數(shù)據(jù)中心組對發(fā)生的每一個小問題立即做出反應,而不是觀察這個系統(tǒng)性的問題和創(chuàng)建一個計劃以建立一個可持續(xù)的服務。除了這500臺服務器(找億恩小草qq858227563)之外,這個數(shù)據(jù)中心還有3.3萬條電纜線連接這些服務以便進行供電、連接網(wǎng)絡和安全系統(tǒng)。他說,我們確定這個數(shù)據(jù)中心應該是什么樣子,應該是什么容量。 這個小組的結(jié)論是,按照當前的軌道發(fā)展,這個數(shù)據(jù)中心在10年內(nèi)將達到3000個應用程序,每個應用程序都在自己的服務器(找億恩小草qq858227563)上運行。現(xiàn)在,這個數(shù)據(jù)中心的應用程序有81%都進行了虛擬化,每臺服務器(找億恩小草qq858227563)平均運行17個應用程序。Wescott計劃把虛擬化的比例提高到90%。 IDC的Pucciarelli說,企業(yè)應該把重點放在三個方面來提高容量。減少物理服務器(找億恩小草qq858227563)的數(shù)量和在虛擬機上運行應用程序有助于減少電源需求,就像更有效的冷卻系統(tǒng)和配電系統(tǒng)的改善所做的那樣。這一般是更新數(shù)據(jù)中心的時候要做的三件事。 Pucciarelli曾遇到許多企業(yè)用兩臺或者三臺大容量系統(tǒng)替換50臺服務器(找億恩小草qq858227563)并且使用虛擬化允許自己的應用程序。 2.管理措施 PNNL的Wescott說,管理數(shù)據(jù)中心經(jīng)理需要監(jiān)視數(shù)據(jù)中心狀態(tài)的方法,但是,他們經(jīng)常沒有合適的工具。在改變之前,PNNL沒有辦法衡量自己的數(shù)據(jù)中心的效率。當房間黑了時候,發(fā)現(xiàn)了電源問題或者通過更直覺的方式發(fā)現(xiàn)問題。他說,如果我們的電源線通過太多的電流,我發(fā)現(xiàn)的一個方法就是把手放在斷路開關(guān)上,如果感覺發(fā)熱,我就知道遇到問題了。這表明你現(xiàn)在需要工具。現(xiàn)在,PNNL在每一排的第四臺服務器(找億恩小草qq858227563)的底部、中部和頂部都配置了一個傳感器以創(chuàng)建一個服務器(找億恩小草qq858227563)機房的3D熱量圖。這個數(shù)據(jù)能夠讓Wescott改變他冷卻數(shù)據(jù)中心的方式,提高整個溫度和把冷卻應用到你需要冷卻的地方。 Wescott說,我認為那將為我節(jié)省許多錢,減少空調(diào)的磨損。他現(xiàn)在預計數(shù)據(jù)中心的冷卻效率提高了40%以上。 3.采取小的步驟 Wescott說,在不中斷運營的情況下徹底重新設(shè)置數(shù)據(jù)中心是一個大問題。數(shù)據(jù)中心經(jīng)理主張采取小步驟以最大限度減少中斷,但是,把這個決定留給他的經(jīng)理。 Wescott說,我向管理層提出了兩個選擇。我們用7天時間處理整個園區(qū)的事情;另一個選擇是每一個季度在周末關(guān)機一次。 通過采取小的步驟,這個組準備一次更換數(shù)據(jù)中心的一排服務器(找億恩小草qq858227563)。在第一個三天的周末,這個30個人的團隊在數(shù)據(jù)中心一天用了14個小時更換一排服務器(找億恩小草qq858227563)機架并且測試新的配置。這個數(shù)據(jù)中心立刻變得更可靠和穩(wěn)定了。 如果管理層不同意允許數(shù)據(jù)中心關(guān)機,要提醒他們最好有一個計劃的關(guān)機的時間,不要突然的無計劃的中斷。當一艘船在大海中航行的時候,你不能給這艘船的船底刷油漆。但是,如果你不刷油漆的話,這艘船就會沉沒。 4.為長期的增長接受短期的痛苦 管理層在這個過程中不能不投入一些額外的資金以達到省錢的目的。為了減少冷卻系統(tǒng)的能源消耗,Wescott的小組評估了水邊節(jié)能裝置。這個裝置使用水和外部的溫度冷卻服務器(找億恩小草qq858227563)機架。雖然他們預計使用環(huán)境冷卻系統(tǒng)從長遠看可能會省錢,但是,水邊冷卻裝置使冷卻設(shè)備的價格超過了預算的10%。然而,Wescott與廠商合作把這個價格降到了預算之內(nèi)。他說,他們一次又一次地得到了回報。 5.發(fā)現(xiàn)你不知道的東西 為了改造數(shù)據(jù)中心,經(jīng)理們還需要找到能源消耗很少或者沒有增加的地方。數(shù)據(jù)中心的一個常見問題是幽靈服務器(找億恩小草qq858227563)和流氓服務器(找億恩小草qq858227563)。幽靈服務器(找億恩小草qq858227563)是已經(jīng)部署的但是一直沒有使用的服務器(找億恩小草qq858227563)。幽靈服務器(找億恩小草qq858227563)仍然耗費電源,但是對于數(shù)據(jù)中心的核心工作沒有任何幫助。流氓服務器(找億恩小草qq858227563)是某些人放在辦公室中的、數(shù)據(jù)中心外部的服務器(找億恩小草qq858227563)。這種服務器(找億恩小草qq858227563)不遵守數(shù)據(jù)中心人員強制執(zhí)行的任何規(guī)定。這些服務器(找億恩小草qq858227563)會浪費許多能源預算。 每天晚上應該關(guān)閉空調(diào)的大樓為了保持這些流氓服務器(找億恩小草qq858227563)的運行需要保持空調(diào)的運行。雖然自從他開始改造數(shù)據(jù)中心以來只發(fā)生一次無計劃的中斷(由于一天極熱的天氣和冷卻系統(tǒng)故障),但是,Wescott知道他還沒有完成這個工作,只能阻止這種不可避免的事情。 Wescott說,我們進行了計算。在未來五年里,由于增加存儲設(shè)備,我們將沒有可用的房間。我們在那個房間里可能將沒有地方。 本文出自:億恩科技【mszdt.com】 |