遇到服務(wù)器宕機怎么解決?有什么預(yù)防措施? |
發(fā)布時間: 2012/5/18 19:23:51 |
宕機,是IT行業(yè)常用的一個專業(yè)術(shù)語,其實就是我們經(jīng)常說的死機。對于IT管理者和應(yīng)用者來說,宕機是一件讓人很頭疼的事情。
普通家庭用的電腦宕機可能沒有太大的影響,頂多就是數(shù)據(jù)無法完全恢復(fù),但是如果是一臺服務(wù)器宕機了,可能會導(dǎo)致機要文件和高等級數(shù)據(jù)丟失,如果處理不當(dāng)可能會造成很嚴(yán)重的后果。
宕機常見的表象多為操作界面靜止無響應(yīng)或“藍屏”,操作系統(tǒng)無響應(yīng),軟件運行無響應(yīng),鼠標(biāo)、鍵盤無響應(yīng),硬盤指示燈恒亮不閃爍。盡管造成死機的原因是多方面的,但是萬變不離其宗,其原因總也脫離不了硬件與軟件(包括主機系統(tǒng)、操作系統(tǒng)、應(yīng)用軟件)兩方面。
下面我們一起來看一下什么原因會引起服務(wù)器宕機,有什么解決方案和預(yù)防措施。
由硬件故障引起的服務(wù)器宕機
硬件其實脫不了這幾大件:CPU、內(nèi)存、硬盤、電源、散熱系統(tǒng),而最常見的硬件引起的當(dāng)機原因則是散熱系統(tǒng)故障。
1.散熱不良
散熱不良是大家碰到的導(dǎo)致服務(wù)器當(dāng)機最普遍的原因,CPU、硬盤、電源在工作中發(fā)熱量非常大,因此保持良好的通風(fēng)狀況非常重要。CPU相當(dāng)于人的大腦,對于服務(wù)器來說,它要對服務(wù)器內(nèi)硬件軟件的各種請求進行并發(fā)多線程處理,當(dāng)并發(fā)處理要求突然增多時,CPU的熱量就好象人腦飛速思考時一樣,會出現(xiàn)“腦熱”的癥狀,而硬盤I/O的吞吐量也將向額定量靠近,由此帶來的功率增高,必然導(dǎo)致熱量的增加;同時,功率的增加又對電源的支持產(chǎn)生了很大的壓力,必然也會帶來電源高熱量的產(chǎn)生。當(dāng)運算量超過服務(wù)器運算負荷之后,這三個“高熱生產(chǎn)大戶”短時間內(nèi)的熱量突然“增產(chǎn)”,很可能導(dǎo)致服務(wù)器的死機現(xiàn)象。
解決的辦法是,在進行服務(wù)器選購時,盡量選擇發(fā)熱量較小的CPU,在系統(tǒng)設(shè)計時設(shè)置可以實現(xiàn)負載動態(tài)平衡的運算系統(tǒng),選擇散熱性能良好的服務(wù)器準(zhǔn)系統(tǒng)。
2.硬件之間或軟硬件之間不兼容
在硬件之間,如果主板、CPU、內(nèi)存由于內(nèi)外頻相互不匹配,有可能在裝配之初由于處理并發(fā)事件較少,還可以正常運行,但是當(dāng)并發(fā)數(shù)上升到一定高度時,設(shè)備之間的匹配問題導(dǎo)致的硬件系統(tǒng)不穩(wěn)定就凸顯,這樣產(chǎn)生的服務(wù)器當(dāng)機事件發(fā)生幾率也相應(yīng)提高就算有準(zhǔn)系統(tǒng)的支持,也得考慮硬件的兼容性哦。
服務(wù)器配件之間的不兼容問題一般出在朋友們自己DIY的服務(wù)器上,軟硬件兼容問題主要出在用戶對于硬件與應(yīng)用之間的銜接不完善的時候。解決以上問題的方法是在選購硬件設(shè)備時,以需要采用的具體系統(tǒng)實現(xiàn)為基礎(chǔ),全面的考慮全新硬件之間、需要升級的配件與新配件之間、軟件與硬件之間的兼容性問題,以構(gòu)建一個穩(wěn)定的系統(tǒng)。
3.CPU故障
CPU引起當(dāng)機的故障主要有以上提到的兼容問題、超頻引起的處理性能不穩(wěn)定、一些JS為獲更多利潤通過軟件改寫頻率引起的性能不穩(wěn)。
改動頻率引起CPU不穩(wěn)定從而導(dǎo)致運行中當(dāng)機的現(xiàn)象比較少,主要出在一些DIY市場領(lǐng)域。解決改頻引起的問題很簡單,服務(wù)器本身要求的就是系統(tǒng)的穩(wěn)定運行,沒有特殊愛好,沒有特別專業(yè)的知識,不要隨便改動。
4.內(nèi)存故障
內(nèi)存引起當(dāng)機的故障主要有前文提到的兼容問題、內(nèi)存條松動、內(nèi)存容量不足、內(nèi)存質(zhì)量問題、內(nèi)存資源沖突。
內(nèi)存條松動,基本不會出現(xiàn)在品牌服務(wù)器中,因為一般服務(wù)器出廠前都會經(jīng)過專業(yè)技術(shù)人員全面的系統(tǒng)檢測;內(nèi)存條松動的現(xiàn)象主要出在DIY服務(wù)器市場或操作員對品牌服務(wù)器進行升級時的疏忽導(dǎo)致的內(nèi)存條沒有插牢。
內(nèi)存容量不足主要是由于服務(wù)器同一時間處理并發(fā)太多,占用太多的內(nèi)存資源,導(dǎo)致服務(wù)器處理響應(yīng)不過來,產(chǎn)生宕機。
內(nèi)存質(zhì)量問題主要是內(nèi)存芯片出廠前的芯片故障或內(nèi)存廠商裝配時的虛焊等。
內(nèi)存資源沖突的問題主要是在運行操作系統(tǒng)或應(yīng)用軟件時,由于系統(tǒng)線程搶占資源或軟件應(yīng)用程序爭搶內(nèi)存地址而產(chǎn)生的內(nèi)存資源沖突,從而導(dǎo)致服務(wù)器死機的現(xiàn)象。
解決的方法只能是采購員與操作員在進行裝配和升級、測試等工作時,持嚴(yán)謹?shù)募夹g(shù)態(tài)度,認真細致的檢查硬件的每個環(huán)節(jié);對于內(nèi)存資源沖突的問題,主要通過選用冗余支持的內(nèi)存和在并發(fā)高峰期來臨前進行內(nèi)存清理等工作來避免。
5.硬盤故障
硬盤引起當(dāng)機的故障主要是由于使用時間長久、讀寫次數(shù)過多引起了磁道、扇區(qū)損壞的故障,再加上硬盤各部位的老化、磁盤碎片與垃圾文件過多等。
在一些有實力的公司,每隔兩三年,會對正運行的服務(wù)器磁盤進行更新?lián)Q代,將舊硬盤數(shù)據(jù)向新硬盤實現(xiàn)遷移,并將舊硬盤替換到一些測試或者辦公備用等地方,最大限度的避免了硬盤故障引起的當(dāng)機現(xiàn)象。大家可以以此為參考,參照成本預(yù)算等因素,盡量在磁盤損壞之前進行更新?lián)Q代,避免引起重要數(shù)據(jù)的損毀。
磁盤碎片與垃圾文件在每時每刻的運行中都會產(chǎn)生,由于磁盤碎片過多或垃圾文件過多,造成可用空間資源過少時,也可能會在服務(wù)器多程序運行時當(dāng)機。解決的辦法是定期對磁盤碎片與垃圾文件進行清理。
6.電源故障
電源引起當(dāng)機的故障主要是風(fēng)扇壞掉或電子器件與線路損壞等。現(xiàn)在市面上的服務(wù)器廠家批量采用的電源很多都是HIPRO 電源由于風(fēng)扇或其中電子器件與線路故障引起的當(dāng)機,除了需要進行防塵處理外,基本沒什么特殊的防范準(zhǔn)則,因為隨機的偶然性,大多數(shù)情況下只能在當(dāng)機出現(xiàn)的時候,拿備用電源替換,盡量減少當(dāng)機引起的運行時間損耗的問題。
7.操作不當(dāng)
一般情況下,機房的空間都是盡量有效利用的。打個比方,如果需要對機柜內(nèi)的一部服務(wù)器拆開進行硬件升級,在它上面還碼放了幾部機架式服務(wù)器,為了不中斷上面幾部服務(wù)器的運行,可能需要二至三個操作人員協(xié)作才能將上面幾部服務(wù)器托起,并把需升級的服務(wù)器拖出。這個過程看起來很簡單,不過如果沒有什么移機經(jīng)驗,冒失地跑上去拖拽抬放,很可能就導(dǎo)致上面幾部服務(wù)器內(nèi)硬盤部件因振動而與總線接觸不良,從而導(dǎo)致當(dāng)機。
另外,主板故障引起的服務(wù)器當(dāng)機基本都需要返廠修理,與電源故障原由基本相同,其處理方法在次不再贅述。
由軟件原因引起的死機
軟件引起的死機需要考慮的問題比較多雜,涉及到主機系統(tǒng)、操作系統(tǒng)和應(yīng)用軟件
主機系統(tǒng)故障引起的服務(wù)器當(dāng)機
1.CMOS參數(shù)設(shè)置不合理
CMOS參數(shù)設(shè)置不合理,是主機系統(tǒng)引起當(dāng)機故障中最普遍的現(xiàn)象。
由于涉及到具體應(yīng)用的規(guī)劃或更改,如果對系統(tǒng)模式設(shè)定、CPU、內(nèi)存、硬盤、溫度限制等參數(shù)設(shè)置不合理,很可能會導(dǎo)致服務(wù)器運行中死機。
避免的方法只能在相對專業(yè)的工程師指導(dǎo)下,根據(jù)服務(wù)器所需的一些應(yīng)用,對CMOS參數(shù)進行合理的設(shè)置。
2.BIOS設(shè)置或升級不當(dāng)
BIOS的設(shè)置與升級一般在服務(wù)器出廠前已經(jīng)設(shè)置完畢,有部分用戶由于特殊需求,對BIOS設(shè)置進行改動或生機,稍一不慎就可能導(dǎo)致服務(wù)器無法啟動;另外,一些應(yīng)用程序可能會對BIOS不支持或者運行時對BIOS信息進行改動,這些操作也會導(dǎo)致服務(wù)器在以后的使用中不穩(wěn)定而宕機。
避免的方法是盡量避免對BIOS數(shù)據(jù)進行改動,遇到有更改BIOS參數(shù)的程序,應(yīng)盡快對服務(wù)器內(nèi)數(shù)據(jù)進行備份,并對BIOS數(shù)據(jù)進行出廠設(shè)置恢復(fù)。
操作系統(tǒng)故障引起的服務(wù)器當(dāng)機
服務(wù)器的操作系統(tǒng)相對個人版的操作系統(tǒng),容錯的能力有很大的提高,但是,在繁忙的運算與處理過程中,免不了也會出現(xiàn)當(dāng)機的現(xiàn)象。操作系統(tǒng)引起的服務(wù)器宕機主要有以下一些原因。
1.操作系統(tǒng)導(dǎo)引文件損壞或更改
操作系統(tǒng)運行前,需要導(dǎo)引文件對系統(tǒng)進行引導(dǎo),如果這些文件損壞,當(dāng)即會產(chǎn)生藍屏當(dāng)機,并在重新啟動時仍無法進入系統(tǒng)。
引導(dǎo)程序損壞與更改的解決辦法,只能利用備用的同類型操作系統(tǒng)引導(dǎo)程序引導(dǎo)與恢復(fù)。
2.系統(tǒng)文件誤刪除
服務(wù)器里許多重要的系統(tǒng)文件,在刪除前都會有提示信息,如果稍不留神多按一下回車,刪除的文件可就再也沒法恢復(fù)了。
解決系統(tǒng)文件誤刪除,需要從平常的操作中養(yǎng)成習(xí)慣,以Windows服務(wù)器系統(tǒng)為例,刪除文件不要按住Shift,讓文件經(jīng)過系統(tǒng)回收站,這樣當(dāng)誤刪除操作進行后,還可以及時的進行還原恢復(fù)。
3.動態(tài)鏈接庫文件損壞或丟失暫時系統(tǒng)沒有太大的問題
當(dāng)操作者需要通過操作系統(tǒng)調(diào)用程序時,會通過調(diào)用程序與操作系統(tǒng)之間的動態(tài)鏈接庫文件來協(xié)調(diào)。動態(tài)鏈接庫文件大多屬于多程序共享文件,如果進行程序反安裝等操作,動態(tài)鏈接文件由于在操作時被發(fā)安裝程序記錄為曾經(jīng)使用的文件,會隨著反安裝同時被刪除。如果被刪除的動態(tài)鏈接庫文件同時也是操作系統(tǒng)重要程序的調(diào)用,很可能產(chǎn)生服務(wù)器當(dāng)機。
以WindowsServer操作系統(tǒng)為例,動態(tài)鏈接庫文件損壞或丟失的解決辦法,最好是通過優(yōu)化大師與超級兔子等優(yōu)化軟件對系統(tǒng)內(nèi)的動態(tài)鏈接庫文件進行優(yōu)化、管理與備份,以盡快在當(dāng)機發(fā)生后對文件進行有效的恢復(fù)。
應(yīng)用軟件引起的服務(wù)器宕機
1.軟件bug
軟件bug是應(yīng)用軟件里最常見的引起服務(wù)器當(dāng)機的故障原因,一些占用CPU或內(nèi)存較大的軟件應(yīng)用,在bug發(fā)生時,很容易造成服務(wù)器當(dāng)機。
軟件bug在應(yīng)用驅(qū)動、運算處理、系統(tǒng)與軟件升級等各重要環(huán)節(jié)中發(fā)生的時候,因為本身程序占用內(nèi)存和處理需求比較高,這就很容易造成程序處理響應(yīng)不過來而當(dāng)機。
軟件bug沒有哪家軟件開發(fā)公司能夠避免,唯一的方法只能使得bug發(fā)生的幾率減少,那就是在應(yīng)用軟件上線時督促開發(fā)人員進行全面的測試或在bug發(fā)生后,及時的對軟件程序進行修補。
2.病毒感染與黑客攻擊
病毒感染與黑客攻擊是導(dǎo)致NOC、IDC等大型服務(wù)器安置中心當(dāng)機的主要原因。
無論是病毒感染還是黑客攻擊,最主要的解決方式還是提高服務(wù)器安全防護人員的技術(shù)含量,盡量減少服務(wù)器被攻擊的危險從而最大限度的降低服務(wù)器宕機的危險性。
3.殺毒軟件與防火墻
結(jié)合上文,為了對那些粗暴復(fù)制衍生的病毒或木馬程序進行有效的查殺,殺毒軟件與防火墻需要對各種代碼的特征進行辨認,那就需要不斷的提高病毒庫文件的容量;而高等級的防火墻甚至還需要智能的辨別IP訪問許可,并對文件包的接收與發(fā)送與否進行人工智能式的篩選,這就需要更大的處理與存儲空間保障其運行。
殺毒軟件與防火墻運行對于處理和存儲空間的高要求,必然帶來實時監(jiān)控、病毒掃描與查殺時的高存儲占有,如果同時發(fā)生系統(tǒng)內(nèi)部的多個線程響應(yīng),宕機也是很可能發(fā)生的事情。
總結(jié)
硬件方面,服務(wù)器可以通過更好的優(yōu)化配置,做好新舊替換與升級規(guī)劃,在系統(tǒng)應(yīng)用之初就做好硬件兼容、承載和壓力等測試、預(yù)測,這樣可以最大限度的保障服務(wù)器的穩(wěn)定與正常運行,減少宕機發(fā)生的幾率。
軟件方面,服務(wù)器也需要更好的協(xié)作硬件、操作系統(tǒng)與軟件系統(tǒng)之間的兼容與穩(wěn)定性,做好壓力測試、流量測試和負載預(yù)測等前期規(guī)劃,搭配好網(wǎng)絡(luò)與系統(tǒng)的安全防護,為以后的系統(tǒng)應(yīng)用做好準(zhǔn)備。
當(dāng)機在我們服務(wù)器應(yīng)用的時候,是可以減少幾率但絕對無法避免的事情。在我們規(guī)劃好硬件、軟件、網(wǎng)絡(luò)、安全等各方面搭配以后,也只是將當(dāng)機的可能性減到最小。 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |