歷史以來的事故背后,總會(huì)有一連串的故事, 但歸根結(jié)底,還是那些爛熟于胸的分類:硬件故障,人為破壞,誤操作,軟件設(shè)計(jì)缺陷等。我還是引用微信上說的話,安全是細(xì)活,但做得再細(xì),再強(qiáng)大的團(tuán)隊(duì)也是無法規(guī)避問題的出現(xiàn)。但,如何規(guī)避呢?
最近一段時(shí)間, 接二連三出現(xiàn)安全和運(yùn)維事故, 先是支付寶服務(wù)因線路被挖,局部服務(wù)中斷; 接著是攜程整站被刪,給企業(yè)帶來了巨大的損失,到目前為止,攜程用了10多個(gè)小時(shí)全部恢復(fù)過來。其間,各種消息滿天飛,有在討論為何沒有備份,有在討論雙活為何沒生效,有在討論系統(tǒng)被黑,有在討論內(nèi)部員工干的,也有說是出打bug了,發(fā)布的東西立即被刪,最后被官方確定為員工誤操作引起等。歷史以來的事故背后,總會(huì)有一連串的故事, 但歸根結(jié)底,還是那些爛熟于胸的分類:硬件故障,人為破壞,誤操作,軟件設(shè)計(jì)缺陷等。我還是引用微信上說的話,安全是細(xì)活,但做得再細(xì),再強(qiáng)大的團(tuán)隊(duì)也是無法規(guī)避問題的出現(xiàn)。但,如何規(guī)避呢?
手動(dòng)實(shí)施,基礎(chǔ)入門措施,沒做的,趕緊做起來
在線類業(yè)務(wù)/核心業(yè)務(wù),特別對(duì)于依賴互聯(lián)網(wǎng)渠道銷售的企業(yè)來說,是企業(yè)重中之中,應(yīng)當(dāng)作為第1優(yōu)先級(jí)來保護(hù)。首當(dāng)其沖,是對(duì)其核心數(shù)據(jù)庫進(jìn)行主從部署,如果有銀子,另外這些節(jié)點(diǎn)應(yīng)當(dāng)都具備一定的節(jié)點(diǎn)容錯(cuò)能力,也就是說Raid這些技術(shù)上去。但主從的問題,實(shí)際上,不少企業(yè)沒有做從啊,好可怕的。這里如果做了,+1分。做了從以后,還要在本地備份,對(duì)如果有備份意識(shí)的,其實(shí)已經(jīng)做了。但是否就足夠了呢? NO,本機(jī)備份只是很簡單的方案,理論上,出現(xiàn)問題的概率也基本一樣,一樣被刪,硬件故障一樣沒用。這時(shí)候,就需要手動(dòng)復(fù)制一份到其他地方去,進(jìn)行異地備份。這里做了,再+1分,遺憾的是更少的企業(yè)會(huì)做這個(gè)。
以上是一個(gè)簡單的對(duì)核心數(shù)據(jù)庫進(jìn)行備份的方案,但這也僅僅是一個(gè)基礎(chǔ),數(shù)據(jù)小,業(yè)務(wù)簡單也不是難事,寫幾個(gè)腳本就可以了。一旦當(dāng)數(shù)據(jù)和業(yè)務(wù)規(guī)模發(fā)展起來后,數(shù)據(jù)量,業(yè)務(wù)種類,節(jié)點(diǎn)數(shù)目,版本迭代,研發(fā)流程等都會(huì)全面影響數(shù)據(jù)管理策略。遺憾的是,從目前了解的信息看,不少企業(yè)的負(fù)責(zé)人或執(zhí)行團(tuán)隊(duì),并沒有與業(yè)務(wù)一起進(jìn)步,忽略了數(shù)據(jù)連續(xù)性的價(jià)值,才導(dǎo)致看起來很低概率發(fā)生,最后變成了下一攜程。
總體來說,手動(dòng)方案靠1個(gè)有態(tài)度,且敬業(yè)的團(tuán)隊(duì),否則,這個(gè)方案出問題的可能性很大
全程自動(dòng)化,系統(tǒng)化,數(shù)據(jù)大、業(yè)務(wù)多、團(tuán)隊(duì)大的場(chǎng)景,更鼓勵(lì)用此方案
我們簡單想象一樣,數(shù)十TB級(jí)數(shù)據(jù),100個(gè)節(jié)點(diǎn),10臺(tái)DB,30個(gè)業(yè)務(wù),加上互聯(lián)網(wǎng)敏捷式的按天,按周的迭代,互聯(lián)網(wǎng)企業(yè)運(yùn)維團(tuán)隊(duì)常用的備份小技巧,主從,手動(dòng),本地,異地,手動(dòng)歸檔等會(huì)變成麻煩起來了: 忘記做備份, 空間滿備份失敗,找不到備份版本, 備份慢,傳輸異常中斷,恢復(fù)慢,換人了,甚至備份了,也不敢用來恢復(fù),……你說有啥用呢。
實(shí)際場(chǎng)景會(huì)更復(fù)雜,在線系統(tǒng),內(nèi)部研發(fā)系統(tǒng),關(guān)鍵業(yè)務(wù)支撐系統(tǒng)等,加上團(tuán)隊(duì)規(guī)模一大,基本上這塊事情就變復(fù)雜了。
對(duì)此,比較好的方案就是系統(tǒng)梳理業(yè)務(wù)類型,數(shù)據(jù)類型(DB,圖片,視頻,文檔,代碼),是抓取的,還是編輯產(chǎn)生的,內(nèi)部,外部,需要保護(hù)的策路,包括頻率,以及數(shù)據(jù)保留的歷史周期,選擇好容錯(cuò)能力的存儲(chǔ)設(shè)施,業(yè)務(wù)數(shù)據(jù)的敏感程度等,抽象幾種行為的結(jié)果,統(tǒng)一對(duì)數(shù)據(jù),應(yīng)用代碼進(jìn)行本地和異地備份,對(duì)比較歷史的數(shù)據(jù)直接歸檔到離線位置。同時(shí)考慮在出現(xiàn)緊急問題后,最好能夠快速對(duì)核心系統(tǒng)恢復(fù),甚至瞬間對(duì)部分核心環(huán)節(jié)的文件,數(shù)據(jù)庫單表進(jìn)行恢復(fù)。結(jié)合自動(dòng)化邏輯,不管規(guī)模有多大,按內(nèi)外,按業(yè)務(wù),按部門等視圖,集中在一個(gè)系統(tǒng)管理起來,一個(gè)系統(tǒng)全局掌握企業(yè)的核心業(yè)務(wù)分布,數(shù)據(jù)保護(hù)狀態(tài);當(dāng)出現(xiàn)這類緊急情況后,通過自動(dòng)化系統(tǒng),只需要在數(shù)十分鐘,有序就恢復(fù)了;一切盡在掌握。你說,這樣該有多好???當(dāng)然實(shí)際攜程的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)更復(fù)雜,對(duì)全網(wǎng)實(shí)施,需要比較長時(shí)間梳理和設(shè)計(jì),如5.28這種全網(wǎng)出問題后,恢復(fù)的時(shí)間會(huì)略長。
自動(dòng)化方案就比較多,做數(shù)據(jù)管理和保護(hù)的IT公司不下500家,像IBM、HP、Dell、EMC、賽門鐵克、康沃、飛康、愛恩鐵山、CA、carbonite這些老牌的上市公司,由于歷史傳統(tǒng)IT基因,這類對(duì)互聯(lián)網(wǎng)類型基本難適應(yīng),互聯(lián)網(wǎng)類公司一般也不原意用;還有很多新型的互聯(lián)網(wǎng)創(chuàng)業(yè)公司,如Datto、code42、durva、Rubrik等企業(yè)。深圳的一家企業(yè),多備份,算是后起之秀,互聯(lián)網(wǎng)化的產(chǎn)品,全新混合云自動(dòng)備份保護(hù)路線,一站式支持各型主流DB系統(tǒng),OS,各型類型數(shù)據(jù)集中管理保護(hù)。無論在線,還是內(nèi)部系統(tǒng),文件和數(shù)量多大,可以對(duì)IT運(yùn)維團(tuán)隊(duì)非常友好,一個(gè)面板集中管理起來,更適合攜程這種現(xiàn)象的治理。
那,已經(jīng)做了,如何?不把雞蛋放在一個(gè)籃子
同1個(gè)磁盤,同1個(gè)節(jié)點(diǎn),同1個(gè)機(jī)房,同一個(gè)人維護(hù),統(tǒng)一鐘存儲(chǔ)設(shè)備等都是雞蛋放在籃子的表現(xiàn),對(duì)于重要的數(shù)據(jù),這不是良策。不少情況出問題,都由這幾類原因發(fā)生。因此
無論如何,一個(gè)健壯的數(shù)據(jù)保護(hù)系統(tǒng),必須要有能力規(guī)避掉。多點(diǎn)存儲(chǔ),異地,交叉檢查,還是要結(jié)合用上的。
我經(jīng)常聽到不少同學(xué)提到,我們是用的云,我們是用的這家云,很牛的云,很多案例,但又能怎么樣呢?云不是萬能的,都是人寫代碼,加上機(jī)器壘起來的,是人就會(huì)犯錯(cuò)誤,硬件不例外,
數(shù)據(jù)中心也不例外,微軟發(fā)生過,AWS也發(fā)生過。對(duì)于云磁盤本身的快照也只能做到整體恢復(fù),存儲(chǔ)重點(diǎn)也是解決硬件故障。出問題的恢復(fù)動(dòng)作其實(shí)滿大的,數(shù)據(jù)越大,越不容易可控 , 對(duì)于可靠的備份機(jī)制來說,細(xì)粒度備份和恢復(fù)時(shí)必要的,備份的場(chǎng)景和恢復(fù)的需求太多,
云平臺(tái)強(qiáng)項(xiàng)是虛擬化計(jì)算和存儲(chǔ)。這就是為什么云平臺(tái)包括AWS,阿里云等都有備份保護(hù)類的服務(wù)。
從另外1個(gè)角度看,一個(gè)平臺(tái)依然存在一個(gè)籃子問題,所以我們鼓勵(lì)企業(yè)在做數(shù)據(jù)備份的時(shí)候,進(jìn)行交叉部署,交叉?zhèn)浞莨芾恚貏e對(duì)于關(guān)鍵的業(yè)務(wù)系統(tǒng)和重要數(shù)據(jù),尤其要注意,尤其是在關(guān)鍵發(fā)展階段的企業(yè),即將要上市的企業(yè)啊,特別要注意的。
目前此環(huán)節(jié),市面上傳統(tǒng)的IT企業(yè)推出的硬件方案,比較難做到這點(diǎn),一般都需要采購一批硬件進(jìn)行部署,實(shí)施的成本還是比較高的。面向云的方案是比較適應(yīng)這類場(chǎng)景,國外有些企業(yè)比如Datto,Rubrik等都是基于云和本地混合保護(hù)方案 ; 而在國內(nèi),可以根據(jù)需要進(jìn)行異構(gòu),異地,異云的交叉組合。
有心無力怎么辦
當(dāng)然,也有超強(qiáng)備份保護(hù)數(shù)據(jù)意識(shí)的企業(yè)執(zhí)行團(tuán)隊(duì),問題在于數(shù)據(jù)一大,預(yù)算就馬上爬升, 這樣的情況,有心無力,那怎么辦呢? 其實(shí)還有第2個(gè)方案,就是基于混合云的技術(shù)。基于云的技術(shù)一次投入超低,幾千塊就起飛了,成本隨企業(yè)的發(fā)展,其實(shí)都已經(jīng)攤薄,這樣天然就是異地的方案,如果說你擔(dān)心安全,其實(shí)也沒必要,數(shù)據(jù)加密上去,退一萬步講,云平臺(tái)被入侵了也不擔(dān)心,其實(shí)國內(nèi)主流的云平臺(tái)都是一線企業(yè),舍他選誰?安全是他們生命,比任何一個(gè)企業(yè)都在乎;如果這樣你還不放心,你說你數(shù)據(jù)比銀行要求還機(jī)密,這樣一些相對(duì)歷史或邊緣的數(shù)據(jù),可以選擇加密上云。當(dāng)然,只有云還不能解決快速恢復(fù)的問題,特別對(duì)于數(shù)據(jù)規(guī)模比較大的情況下,這時(shí)候,就要用本地和云混合的方案來解決。本地用一般的NAS,
服務(wù)器,或再數(shù)據(jù)上到10TB級(jí),專業(yè)點(diǎn)用SAN,當(dāng)出現(xiàn)問題后,可以并行從本地往各個(gè)節(jié)點(diǎn),系統(tǒng)進(jìn)行同步恢復(fù)。類似攜程這種情況,幾分鐘到幾十分鐘也就OK了,至少對(duì)于關(guān)鍵幾個(gè)業(yè)務(wù)系統(tǒng)。隨后周邊一些業(yè)務(wù)在主系統(tǒng)恢復(fù)的時(shí)候,逐步按批次恢復(fù)?;疽簿驮?-2個(gè)小時(shí)就全網(wǎng)恢復(fù)了。萬一本地的備份系統(tǒng)也被干掉了,那還可以從云端以數(shù)Gb級(jí)的速度做災(zāi)難恢復(fù)。國內(nèi)了解到有一些創(chuàng)新型企業(yè)都在做此類事情,提供自動(dòng)化,基于混合云,集中管理的方案,無論多復(fù)雜的業(yè)務(wù)結(jié)構(gòu),都可以清晰梳理,并有序管理起來,有效規(guī)避人為,自然,系統(tǒng)因素。
最后,如何整起?
當(dāng)然,你說你是很牛的企業(yè),人多,錢多,愿意投入數(shù)十人的IT運(yùn)維工具開發(fā)團(tuán)隊(duì),花幾十到百萬,開發(fā)一套系統(tǒng)自動(dòng)化做這些事情。但是,你愿意不,你能做到不?只有不到1/1000的企業(yè)會(huì)這樣投入做。當(dāng)然,你說可以結(jié)合開源的工具來做,包括文件同步,數(shù)據(jù)庫導(dǎo)出工具,甚至二機(jī)制日志,也不是不行,最大的問題,還是在于數(shù)據(jù)量,業(yè)務(wù)量,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜后,這些都會(huì)變成問題 ;逐漸你的企業(yè)會(huì)變成依賴一個(gè)不愿意反復(fù)做類似事情的團(tuán)隊(duì),而不是一套針對(duì)性的系統(tǒng)來解決問題。
本文的最后的觀點(diǎn)是:以小投入換基業(yè)常青!專業(yè)的事,就交給專業(yè)的服務(wù)去干吧!互聯(lián)網(wǎng)的問題,用互聯(lián)網(wǎng)的工具來解決!
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營商。億恩為近五十萬的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:
0371-60135995
服務(wù)熱線:
0371-60135900