系統(tǒng)運(yùn)維秘訣:變化,監(jiān)控,擴(kuò)展(技術(shù)篇)(2) |
發(fā)布時(shí)間: 2012/5/28 10:18:54 |
監(jiān)控正確的東西 ◆監(jiān)控你能監(jiān)控的所有東西,而且要用正確的方法來進(jìn)行監(jiān)控。如果你的NFS服務(wù)器掛掉了,不要讓你的監(jiān)控工具發(fā)送1000條警報(bào)。如果對(duì)你的系統(tǒng)來說,超時(shí)的警報(bào)沒有什么實(shí)際意義,那就別讓它發(fā)。要針對(duì)各種具體的情況進(jìn)行成功性測(cè)試:是的,這個(gè)服務(wù)可以進(jìn)行一個(gè)新的TCP連接,它甚至可以響應(yīng),但是它還記得它要做什么工作嗎? ◆如果你有500個(gè)Web服務(wù)器,其中一個(gè)掛掉了,你可能不必馬上知道這個(gè)情況。但是,如果負(fù)載均衡器沒有把這臺(tái)機(jī)子踢出去,導(dǎo)致錯(cuò)誤報(bào)告出現(xiàn)在了用戶的屏幕上,那么你必須知道這個(gè)情況! 有關(guān)數(shù)據(jù)圖形化,歷史數(shù)據(jù) ◆圖形的作用是讓趨勢(shì)可視化。歷史數(shù)據(jù)的作用是讓你對(duì)數(shù)據(jù)進(jìn)行精確的分析。不要把這兩者混為一談!對(duì)圖形進(jìn)行目測(cè),很容易獲得錯(cuò)誤的數(shù)值。許多站點(diǎn)都使用rrd類型的系統(tǒng)或其他的數(shù)據(jù)聚合系統(tǒng),此類系統(tǒng)按照時(shí)間對(duì)數(shù)據(jù)進(jìn)行平均化處理,然后保存在存儲(chǔ)空間中。這不僅僅是難以閱讀的問題:這根本是錯(cuò)誤的! ◆如果你要瀏覽數(shù)百張圖才能精確地對(duì)一個(gè)問題進(jìn)行定位,那真是糟透了。想要找出極值?請(qǐng)使用腳本提取數(shù)據(jù)。 ◆如果你必須使用圖形來解決問題,盡量把各種高級(jí)的概念整合到一個(gè)單一的頁面中,然后讓這個(gè)頁面鏈接到擁有具體信息的子頁面中。如果你在數(shù)據(jù)庫負(fù)載中可以看到一個(gè)峰值,你可以點(diǎn)擊這個(gè)頁面對(duì)那些數(shù)據(jù)庫進(jìn)行概覽,然后找到那一兩臺(tái)可疑的機(jī)器;镜睦砟钍潜M快地縮小范圍,盡可能的減少猜測(cè)。 日志記錄,使用多個(gè)數(shù)據(jù)流 ◆無論是獨(dú)立工作還是與開發(fā)部門合作,都要把盡可能多的有用的信息記錄到日志中。無論是分析之后再保存,還是直接扔進(jìn)數(shù)據(jù)庫中生成報(bào)告,這些都無所謂。信息終歸是有用的。 ◆有用的例子:頁面呈現(xiàn)時(shí)間(哪個(gè)頁面?哪個(gè)設(shè)備?),面向用戶的錯(cuò)誤,數(shù)據(jù)庫和內(nèi)部服務(wù)錯(cuò)誤,帶寬使用率等。 ◆建立圖表,報(bào)告,并對(duì)產(chǎn)生的歷史數(shù)據(jù)進(jìn)行比較。 ◆報(bào)告是十分重要的。每周或每天對(duì)你的基礎(chǔ)設(shè)施變更進(jìn)行匯總。 數(shù)據(jù)存儲(chǔ)方式,數(shù)據(jù)庫 ◆誠然,數(shù)據(jù)庫運(yùn)維是一套完整而獨(dú)立的知識(shí)體系。但是有時(shí),你不能把一切都丟給你的DBA。 ◆擁有多個(gè)冗余的數(shù)據(jù)庫會(huì)給你帶來很多好處。對(duì)于一個(gè)龐大的Oracle實(shí)例來說,從前,很多運(yùn)維工作需要好幾個(gè)小時(shí)的關(guān)機(jī)維護(hù)時(shí)間;而現(xiàn)在,完全可以在服務(wù)運(yùn)行的同時(shí)進(jìn)行。MySQL和數(shù)據(jù)庫復(fù)制功能是一件奇妙的事情。 ◆和DBA們一起努力,盡量為可能會(huì)發(fā)生問題的數(shù)據(jù)庫爭(zhēng)取到最好的硬件。RAID 10,大量的RAM,高速硬盤,乃至于強(qiáng)悍的RAM磁盤和SSD。運(yùn)維人員對(duì)提供商要貨比三家,這樣可以減輕DBA對(duì)硬件的恐懼。從長(zhǎng)遠(yuǎn)來看,找出哪個(gè)品牌的硬件更加優(yōu)秀會(huì)節(jié)省大量的資金。 ◆數(shù)據(jù)庫配置一直在改變,F(xiàn)在出現(xiàn)了HiveDB,MySQL Proxy,DPM這些軟件。我們絕對(duì)應(yīng)該對(duì)巨大的數(shù)據(jù)集進(jìn)行分割。我們也可以考慮一下像starling和Gearman這樣具有一定創(chuàng)新性的軟件。了解一下這些軟件的用途,同時(shí),了解一下并不是一切東西都要保存在一個(gè)數(shù)據(jù)庫中的。 ◆善用你的過濾器!如果這些數(shù)據(jù)很重要,應(yīng)該對(duì)它們進(jìn)行備份!單片的NFS服務(wù)器的快照很奇妙,它并不是一個(gè)備份! ◆可以慮一下替代的解決方案。MogileFS現(xiàn)在變得越來越好了(參考閱讀:分布式文件系統(tǒng)試用比較)。實(shí)際上,還有其他類似的項(xiàng)目可以免費(fèi)(或廉價(jià))地維護(hù)大量的存儲(chǔ)文件。類似的系統(tǒng)基本上都是是為youtube.com、archive.org等站點(diǎn)而開發(fā)的。我們最終會(huì)讓廉價(jià)的NFS過濾器成為標(biāo)準(zhǔn)!
本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |