系統(tǒng)運(yùn)維秘訣:變化,監(jiān)控,擴(kuò)展(技術(shù)篇)(2) |
發(fā)布時(shí)間: 2012/5/28 10:18:54 |
監(jiān)控正確的東西 ◆監(jiān)控你能監(jiān)控的所有東西,而且要用正確的方法來進(jìn)行監(jiān)控。如果你的NFS服務(wù)器掛掉了,不要讓你的監(jiān)控工具發(fā)送1000條警報(bào)。如果對你的系統(tǒng)來說,超時(shí)的警報(bào)沒有什么實(shí)際意義,那就別讓它發(fā)。要針對各種具體的情況進(jìn)行成功性測試:是的,這個(gè)服務(wù)可以進(jìn)行一個(gè)新的TCP連接,它甚至可以響應(yīng),但是它還記得它要做什么工作嗎? ◆如果你有500個(gè)Web服務(wù)器,其中一個(gè)掛掉了,你可能不必馬上知道這個(gè)情況。但是,如果負(fù)載均衡器沒有把這臺機(jī)子踢出去,導(dǎo)致錯(cuò)誤報(bào)告出現(xiàn)在了用戶的屏幕上,那么你必須知道這個(gè)情況! 有關(guān)數(shù)據(jù)圖形化,歷史數(shù)據(jù) ◆圖形的作用是讓趨勢可視化。歷史數(shù)據(jù)的作用是讓你對數(shù)據(jù)進(jìn)行精確的分析。不要把這兩者混為一談!對圖形進(jìn)行目測,很容易獲得錯(cuò)誤的數(shù)值。許多站點(diǎn)都使用rrd類型的系統(tǒng)或其他的數(shù)據(jù)聚合系統(tǒng),此類系統(tǒng)按照時(shí)間對數(shù)據(jù)進(jìn)行平均化處理,然后保存在存儲空間中。這不僅僅是難以閱讀的問題:這根本是錯(cuò)誤的! ◆如果你要瀏覽數(shù)百張圖才能精確地對一個(gè)問題進(jìn)行定位,那真是糟透了。想要找出極值?請使用腳本提取數(shù)據(jù)。 ◆如果你必須使用圖形來解決問題,盡量把各種高級的概念整合到一個(gè)單一的頁面中,然后讓這個(gè)頁面鏈接到擁有具體信息的子頁面中。如果你在數(shù)據(jù)庫負(fù)載中可以看到一個(gè)峰值,你可以點(diǎn)擊這個(gè)頁面對那些數(shù)據(jù)庫進(jìn)行概覽,然后找到那一兩臺可疑的機(jī)器;镜睦砟钍潜M快地縮小范圍,盡可能的減少猜測。 日志記錄,使用多個(gè)數(shù)據(jù)流 ◆無論是獨(dú)立工作還是與開發(fā)部門合作,都要把盡可能多的有用的信息記錄到日志中。無論是分析之后再保存,還是直接扔進(jìn)數(shù)據(jù)庫中生成報(bào)告,這些都無所謂。信息終歸是有用的。 ◆有用的例子:頁面呈現(xiàn)時(shí)間(哪個(gè)頁面?哪個(gè)設(shè)備?),面向用戶的錯(cuò)誤,數(shù)據(jù)庫和內(nèi)部服務(wù)錯(cuò)誤,帶寬使用率等。 ◆建立圖表,報(bào)告,并對產(chǎn)生的歷史數(shù)據(jù)進(jìn)行比較。 ◆報(bào)告是十分重要的。每周或每天對你的基礎(chǔ)設(shè)施變更進(jìn)行匯總。 數(shù)據(jù)存儲方式,數(shù)據(jù)庫 ◆誠然,數(shù)據(jù)庫運(yùn)維是一套完整而獨(dú)立的知識體系。但是有時(shí),你不能把一切都丟給你的DBA。 ◆擁有多個(gè)冗余的數(shù)據(jù)庫會給你帶來很多好處。對于一個(gè)龐大的Oracle實(shí)例來說,從前,很多運(yùn)維工作需要好幾個(gè)小時(shí)的關(guān)機(jī)維護(hù)時(shí)間;而現(xiàn)在,完全可以在服務(wù)運(yùn)行的同時(shí)進(jìn)行。MySQL和數(shù)據(jù)庫復(fù)制功能是一件奇妙的事情。 ◆和DBA們一起努力,盡量為可能會發(fā)生問題的數(shù)據(jù)庫爭取到最好的硬件。RAID 10,大量的RAM,高速硬盤,乃至于強(qiáng)悍的RAM磁盤和SSD。運(yùn)維人員對提供商要貨比三家,這樣可以減輕DBA對硬件的恐懼。從長遠(yuǎn)來看,找出哪個(gè)品牌的硬件更加優(yōu)秀會節(jié)省大量的資金。 ◆數(shù)據(jù)庫配置一直在改變,F(xiàn)在出現(xiàn)了HiveDB,MySQL Proxy,DPM這些軟件。我們絕對應(yīng)該對巨大的數(shù)據(jù)集進(jìn)行分割。我們也可以考慮一下像starling和Gearman這樣具有一定創(chuàng)新性的軟件。了解一下這些軟件的用途,同時(shí),了解一下并不是一切東西都要保存在一個(gè)數(shù)據(jù)庫中的。 ◆善用你的過濾器!如果這些數(shù)據(jù)很重要,應(yīng)該對它們進(jìn)行備份!單片的NFS服務(wù)器的快照很奇妙,它并不是一個(gè)備份! ◆可以慮一下替代的解決方案。MogileFS現(xiàn)在變得越來越好了(參考閱讀:分布式文件系統(tǒng)試用比較)。實(shí)際上,還有其他類似的項(xiàng)目可以免費(fèi)(或廉價(jià))地維護(hù)大量的存儲文件。類似的系統(tǒng)基本上都是是為youtube.com、archive.org等站點(diǎn)而開發(fā)的。我們最終會讓廉價(jià)的NFS過濾器成為標(biāo)準(zhǔn)!
本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |