排除AIX服務(wù)器故障的八大步驟(1) |
發(fā)布時間: 2012/8/7 17:52:15 |
問題1:服務(wù)器更大,而計算能力卻降低了 當(dāng)時,我需要把一個AIX5.3LPAR從基于POWER4?的老式IBMpSeries?p670服務(wù)器遷移到基于POWER6?的全新的 pSeriesp570服務(wù)器上。老的服務(wù)器資源不足(使用WorkloadManager管理服務(wù)器上主要應(yīng)用程序的資源),因此新硬件上新的動態(tài)處理器資源應(yīng)該會提供我需要的計算能力。我對這個LPAR執(zhí)行了mksysb,然后使用NetworkInstallationManager在新硬件上恢復(fù)它并通過SAN磁盤映射它。 我啟動了這個LPAR,直到啟動應(yīng)用程序之前看起來一切順利。突然之間,用戶開始打電話來了。他們根本無法訪問自己的產(chǎn)品了。當(dāng)我登錄時,發(fā)現(xiàn)服務(wù)器完全是空閑的。服務(wù)器上根本沒有消耗資源很多的進(jìn)程。用戶為什么會遇到問題? 問題2:出故障的硬盤無法解除鏡像 我的一臺服務(wù)器具有鏡像的root磁盤。有一天,錯誤報告指出在其中一個磁盤上壞塊無法重新定位。我知道這是硬件故障的先兆,所以開始解除鏡像。但是,服務(wù)器說無法完全解除鏡像,因為其中一個邏輯卷只有一個好拷貝,它就在出故障的磁盤上。我應(yīng)該怎么解決這個問題并更換硬件? 故障排除過程 記住這兩個示例問題,現(xiàn)在看看解決它們的過程。 步驟1:別亂動 一旦發(fā)現(xiàn)有麻煩了,最明智的舉動就是別亂動。就像印地安納·瓊斯在“奪寶奇兵”中一樣,如果發(fā)現(xiàn)踩上地板就會有飛鏢射向您,那么就停在原地,不要繼續(xù)前進(jìn)了。更多的變動只會讓問題復(fù)雜化,可能把情況弄得更糟。當(dāng)一個問題影響系統(tǒng)正常運行時,不得不解決多個問題是沒有意義的。 對于第一個示例問題,我讓用戶馬上退出系統(tǒng),然后我終止應(yīng)用程序。我知道在性能很差時用戶的查詢和輸入會中斷,這可能會破壞他們的數(shù)據(jù),在我檢查系統(tǒng)之前不希望他們的環(huán)境有進(jìn)一步的變動。盡管用戶不愿意聽到他們現(xiàn)在不能使用新的服務(wù)器,但是知道我正在查找問題的原因,他們會很高興。另外,這讓我有時間按自己的方式執(zhí)行其他故障排除步驟。 步驟2:先從基本命令開始,然后增加復(fù)雜性 在我學(xué)功夫時,聽到了一位二級黑帶在公共汽車站制伏小偷的故事。同學(xué)們都想知道她用哪一招放倒了進(jìn)攻者。是金虎式嗎?還是八卦掌中的圈掌?我們甚至想像她非常厲害,用醉八仙把對方放倒了。結(jié)果都不是:她使用的是白帶在班上最初學(xué)習(xí)的技術(shù)之一-肘擊前胸,再拳擊鼻子。 AIX提供了用于檢查服務(wù)器的各個方面的命令,包括硬件和軟件。即使是最基本的命令也會為分析問題提供很好的基礎(chǔ)。當(dāng)信息不夠或仍然有些東西表現(xiàn)不正常時,可以開始嘗試更復(fù)雜、更強大的工具。但是,應(yīng)該從最簡單的命令和想法開始,然后再使用更強大的工具。 對于第二個示例問題,我先通過查看errpt輸出尋找硬件問題,然后使用unmirrorvg命令-嘗試解除鏡像的簡單但強大的工具-而不是對磁盤上的每個邏輯卷運行rmlvcopy.當(dāng)我發(fā)現(xiàn)有一個邏輯卷無法刪除時,就使用lspv、lsvg和migratepv等其他基本命令收集信息。我嘗試用extendvg和mirrorvg在另一個磁盤上創(chuàng)建卷組的另一個拷貝。這仍然留下了一些舊的分區(qū),所以我更進(jìn)一步,用syncvg和 synclvdom協(xié)調(diào)ObjectDataManager與服務(wù)器。最后,我用migratelp嘗試把各個邏輯分區(qū)轉(zhuǎn)移出這個磁盤。不幸的是,這些工具都不奏效,但是它們提供了大量信息。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |