沒(méi)有挖斷光纖,也不是電力部門問(wèn)題,更沒(méi)有所謂的消防警報(bào)延誤搶修時(shí)間,經(jīng)過(guò)記者多方調(diào)查核實(shí),阿里云在香港中止服務(wù)12小時(shí)就是一起由硬件故障引發(fā)、搶修和恢復(fù)嚴(yán)重超時(shí)的事故。
沒(méi)有挖斷光纖,也不是電力部門問(wèn)題,更沒(méi)有所謂的消防警報(bào)延誤搶修時(shí)間,經(jīng)過(guò)記者多方調(diào)查核實(shí),阿里云在香港中止服務(wù)12小時(shí)就是一起由硬件故障引發(fā)、搶修和恢復(fù)嚴(yán)重超時(shí)的事故。
這類
數(shù)據(jù)中心的電力事故原本是國(guó)內(nèi)外云服務(wù)商普遍面臨的一大問(wèn)題,但用一位業(yè)內(nèi)資深人士的話來(lái)說(shuō),“12小時(shí)才恢復(fù)實(shí)在太久了。應(yīng)該幾分鐘就解決的?!?br />
12小時(shí)的超長(zhǎng)處理時(shí)間,以及過(guò)程當(dāng)中阿里云與相關(guān)方陸續(xù)給出的五花八門甚至自相矛盾的解釋,引發(fā)了用戶的不滿和業(yè)內(nèi)的質(zhì)疑,也暴露了阿里云在故障處理和公眾溝通中存在的問(wèn)題。有部分用戶甚至反應(yīng)15個(gè)小時(shí)業(yè)務(wù)才恢復(fù)。
事故發(fā)生在6月21日上午9點(diǎn)到10點(diǎn)之間,一些使用阿里云香港數(shù)據(jù)中心的用戶發(fā)現(xiàn)服務(wù)出了問(wèn)題,此后,阿里云方面通過(guò)博客公告稱由于運(yùn)營(yíng)商電力問(wèn)題造成香港機(jī)房故障,正在搶修。
此后阿里云的客服給用戶的解釋幾易其口。有用戶告訴財(cái)新記者,事故后致電阿里云官方客服,得到的解釋是香港和大陸地區(qū)所連光纜挖斷,但用戶質(zhì)疑“難道只有一條光纜”后,阿里又回復(fù)稱是因?yàn)檫\(yùn)營(yíng)商的電力故障。
6月23日,阿里云方面向記者發(fā)來(lái)聲明對(duì)事故作出說(shuō)明:6月21日上午9點(diǎn)37分,阿里監(jiān)控系統(tǒng)發(fā)現(xiàn)阿里云香港IDC運(yùn)營(yíng)商名氣通機(jī)房出現(xiàn)訪問(wèn)異常,名氣通反饋原因?yàn)楣╇娤到y(tǒng)故障導(dǎo)致數(shù)據(jù)中心大樓整體斷電,并觸發(fā)消防報(bào)警。根據(jù)當(dāng)?shù)氐南酪?guī)定,必須徹底排查隱患并完全消除后,才能獲準(zhǔn)進(jìn)場(chǎng)做電力搶修。21點(diǎn)22分機(jī)房正式恢復(fù)穩(wěn)定供電,阿里立即執(zhí)行既定預(yù)案逐項(xiàng)恢復(fù)服務(wù),21點(diǎn)32分安全防護(hù)服務(wù)恢復(fù)正常,各項(xiàng)服務(wù)陸續(xù)恢復(fù),截至23點(diǎn)39分全部服務(wù)恢復(fù)。
按照這份說(shuō)明,阿里云香港服務(wù)癱瘓12小時(shí)主要是因?yàn)闄C(jī)房建設(shè)方和運(yùn)營(yíng)商名氣通電力故障,阿里云直到電力故障發(fā)生近12個(gè)小時(shí)后才得以進(jìn)入機(jī)房搶修。從阿里云的解釋來(lái)看沒(méi)能及時(shí)搶修成功是因?yàn)檎麠澊髽嵌紨嚯姸覠o(wú)法切換備用電源,并且消防隱患排查耽誤了搶修時(shí)間。阿里云只用了10分鐘(21時(shí)22 分到21時(shí)32分)恢復(fù)了安全防護(hù)服務(wù),繼而用了兩個(gè)小時(shí)恢復(fù)全部服務(wù)。但事實(shí)并非如此。
消防警報(bào)子虛烏有
一時(shí)間,阿里云香港合作伙伴運(yùn)營(yíng)商名氣通被推上風(fēng)口浪尖,6月23日下午,名氣通方面經(jīng)財(cái)新記者多次詢問(wèn)發(fā)來(lái)了官方回應(yīng),承認(rèn)電力故障,但只字未提大樓整體斷電,以及消防火警等因素影響。
名氣通稱其香港二號(hào)數(shù)據(jù)中心于2015年6月21日上午9點(diǎn)40分,因電力出現(xiàn)故障,導(dǎo)致部分客戶服務(wù)中斷。名氣通第一時(shí)間啟動(dòng)應(yīng)急方案,進(jìn)行緊急搶修,並于下午2點(diǎn)恢復(fù)部客戶的服務(wù),並于當(dāng)日晚上9點(diǎn)50分,完全恢復(fù)電力供應(yīng),客戶服務(wù)全部回復(fù)正常。
在現(xiàn)場(chǎng)參與搶修的不愿具名人士告訴記者,當(dāng)時(shí)并未有火警以及消防等因素干擾,整棟大樓并未斷電,只有部分用戶受影響?!跋婪鈽且蛩卦斐煽蛻魺o(wú)法進(jìn)入數(shù)據(jù)中心處理事故是謠傳?!痹撊耸棵鞔_表示。對(duì)于事故處理經(jīng)過(guò),他稱:”就是電力故障,名氣通的部分用戶受到影響,阿里云是其中一個(gè),名氣通的數(shù)據(jù)運(yùn)營(yíng)團(tuán)隊(duì)第一時(shí)間就通知了客戶,最早的客戶10點(diǎn)不到就到了?!比欢?,問(wèn)什么需要12小時(shí)才恢復(fù)電力,該人士稱自己并非工程出身無(wú)法回答。
事故責(zé)任雙方對(duì)于事故經(jīng)過(guò)解釋有出入。記者聯(lián)系了香港消防處,官方給出的回復(fù)稱,為了防止安全隱患,不排除因?yàn)楣收嫌|發(fā)消防系統(tǒng)自動(dòng)斷電。但消防處稱查閱火警記錄后告訴財(cái)新記者,21日上午9點(diǎn)到10點(diǎn)半這段時(shí)間內(nèi),名氣通機(jī)房所在的將軍澳地區(qū)并沒(méi)有關(guān)于名氣通二號(hào)數(shù)據(jù)中心的記錄。這意味著事故發(fā)生當(dāng)時(shí)當(dāng)?shù)貨](méi)有接報(bào)火警,也沒(méi)有消防處人員到場(chǎng)處理,所謂消防因素延遲了事故處理的說(shuō)法不成立。
業(yè)內(nèi)人士也向記者分析認(rèn)為所謂消防因素不合常理。國(guó)內(nèi)一運(yùn)營(yíng)商在香港數(shù)據(jù)中心工作的人士告訴記者,名氣通二號(hào)數(shù)據(jù)中心所在的香港將軍澳產(chǎn)業(yè)村是香港最重要的數(shù)據(jù)中心集中區(qū)域,國(guó)內(nèi)運(yùn)營(yíng)商、香港地區(qū)多個(gè)重要金融機(jī)構(gòu)的機(jī)房均建設(shè)于此。“香港方面在消防、臺(tái)風(fēng)等各類備災(zāi)上是很注意的,因?yàn)橄腊踩幚碓斐梢粋€(gè)機(jī)房十幾個(gè)小時(shí)不通電很難想象?!彼f(shuō)。
針對(duì)各方質(zhì)疑,阿里云于6月23日傍晚再次致電記者,提供了更多事故細(xì)節(jié)。新的說(shuō)法是:斷電并非整棟大樓,而是機(jī)房所在樓層,但因?yàn)槲飿I(yè)工作人員考慮到安全問(wèn)題要求整棟大樓疏散。而阿里云方面到下午14時(shí)才得以進(jìn)入機(jī)房配合IDC運(yùn)營(yíng)商處理事故。
根據(jù)新說(shuō)法,阿里云開(kāi)始搶修和處理事故的時(shí)間并非晚上21時(shí)22分,而是下午14時(shí),整整提前了七個(gè)多小時(shí)。
一位國(guó)內(nèi)大型互聯(lián)網(wǎng)公司IT基礎(chǔ)設(shè)施技術(shù)的負(fù)責(zé)人向記者分析了造成斷電的可能原因。他指出,國(guó)內(nèi)互聯(lián)網(wǎng)公司在國(guó)內(nèi)的機(jī)房就算外部電力全部切斷,也都有備用的柴油發(fā)動(dòng)機(jī),能夠維持的時(shí)間也比較久。在他看來(lái),香港機(jī)房斷電最可能的原因是控電設(shè)備故障,接入強(qiáng)的外部直流電源無(wú)法實(shí)現(xiàn)切換,因而
服務(wù)器大面積斷電,導(dǎo)致服務(wù)器宕機(jī)。這類維修耗時(shí)較長(zhǎng)。另一種可能的原因則是柴油發(fā)電機(jī)的供電模組不可用或者故障。
無(wú)論哪一類事故原因,斷電12小時(shí)在業(yè)內(nèi)都被認(rèn)為是”太久了“。
CSC首席分析師張廣彬告訴記者,國(guó)內(nèi)外對(duì)數(shù)據(jù)中心的斷電有基本的5個(gè)9標(biāo)準(zhǔn),即一年之內(nèi)99.999%的時(shí)間內(nèi)不可以斷電。這意味著全年數(shù)據(jù)中心斷電的時(shí)長(zhǎng)不能超過(guò)5分鐘。
這樣的標(biāo)準(zhǔn)在實(shí)際運(yùn)行中很難達(dá)到。據(jù)張廣彬稱,機(jī)房斷電是國(guó)內(nèi)外云服務(wù)商面臨的一大問(wèn)題,今年初國(guó)內(nèi)另一家云服務(wù)公司青云也曾遇到相關(guān)問(wèn)題。而國(guó)外包括亞馬遜、Facebook等企業(yè)都曾遇到過(guò)電力故障。一旦斷電后,有可能對(duì)機(jī)房的硬件,以及云系統(tǒng)軟件構(gòu)成影響,即使恢復(fù)供電后也需要一定時(shí)間處理硬件和軟件故障。在他看來(lái),持續(xù)12小時(shí)的斷電是近年來(lái)非常嚴(yán)重的事故:”阿里云作為大公司,因?yàn)橛脩魯?shù)量多所以影響范圍也比較大?!?br />
用戶的不滿與阿里云的信任危機(jī)
阿里云用戶對(duì)此次事故的質(zhì)疑和不滿更多并非來(lái)自技術(shù),而是針對(duì)阿里云對(duì)事實(shí)的披露效率和誠(chéng)信。
阿里云21日上午10點(diǎn)35分在博客上掛出公告稱故障正在搶修,希望用戶測(cè)試服務(wù)是否恢復(fù)正常,并電話或者工單反饋。
阿里云后來(lái)在給記者的回復(fù)中也稱在與香港名氣通進(jìn)行深入復(fù)盤(pán),并要求其盡快完成整改,避免此類問(wèn)題再次發(fā)生。同時(shí)已經(jīng)啟動(dòng)對(duì)客戶百倍賠償。阿里云稱:“我們深知賠償不能解決所有問(wèn)題,我們對(duì)造成阿里云香港中斷服務(wù)深表愧疚。
云計(jì)算是一個(gè)復(fù)雜的系統(tǒng)工程,過(guò)程中有著各種艱難險(xiǎn)阻。我們將一如既往地努力,消除一切隱患,共同和我們的客戶一起實(shí)現(xiàn)云計(jì)算夢(mèng)想。”
然而,在阿里云等論壇上,不少用戶對(duì)阿里云的事后處理非常不滿。阿里云的米芽時(shí)代創(chuàng)始人童謠告訴財(cái)新記者,故障后網(wǎng)站無(wú)法訪問(wèn),無(wú)法切換。而公司對(duì)數(shù)據(jù)沒(méi)有本地備份和異地備份,業(yè)務(wù)直到晚上11點(diǎn)才恢復(fù)正常:“多次重啟服務(wù)器,嘗試了很多次才可以正常使用,根本沒(méi)有無(wú)縫銜接。”
童謠告訴財(cái)新記者,公司原本使用騰訊云服務(wù),后來(lái)覺(jué)得阿里云在傳輸穩(wěn)定性等方面更勝一籌就轉(zhuǎn)到了阿里云。但這次事件后,他們開(kāi)始考慮將部分業(yè)務(wù)再次簽回騰訊云。
實(shí)際上,由于云服務(wù)是IT基礎(chǔ)服務(wù),一旦遇到公司提供的是平臺(tái)業(yè)務(wù),后續(xù)影響的將是各類普通用戶。周國(guó)星在國(guó)內(nèi)使用某交易平臺(tái)公司的服務(wù)進(jìn)行比特幣交易,服務(wù)崩潰十幾個(gè)小時(shí),交易受阻,損失無(wú)法評(píng)估。更讓他郁悶的是,阿里云只會(huì)賠償平臺(tái),但平臺(tái)實(shí)際上沒(méi)有業(yè)務(wù),無(wú)所謂損失,只有他這樣的終端用戶會(huì)守著電腦一遍遍刷新幾個(gè)小時(shí)。在他看來(lái),阿里云這樣大的公司,事故發(fā)生三個(gè)小時(shí)后才告之設(shè)備故障“很不正?!?。
海外云服務(wù)模式安全么?
實(shí)際上,就在阿里云出事故的同時(shí),自媒體人徐家俊也反映自己使用的另一家
虛擬主機(jī)商的主機(jī)也出現(xiàn)癱瘓。6月23日下午,徐家俊告訴記者目前服務(wù)恢復(fù),但公司未給任何公告以及事件解釋,公司客服方面稱要到6月23日晚間才回郵件告知事故原因。在他看來(lái),
香港主機(jī)、機(jī)房和云計(jì)算服務(wù)出問(wèn)題并非個(gè)例。香港云服務(wù)的安全性值得關(guān)注。
中國(guó)的很多互聯(lián)網(wǎng)公司之所以選擇香港數(shù)據(jù)中心,一方面是海外業(yè)務(wù)需求,另一方面是為了繞過(guò)內(nèi)地的數(shù)據(jù)備案制度。隨著創(chuàng)業(yè)公司大批涌入,以及互聯(lián)網(wǎng)公司海外業(yè)務(wù)需求,越來(lái)越多的公司選擇使用香港云服務(wù)。
前述國(guó)內(nèi)運(yùn)營(yíng)商人士告訴記者,香港地區(qū)氣候炎熱,且多有臺(tái)風(fēng)等災(zāi)害,在數(shù)據(jù)中心選址上并不特別有優(yōu)勢(shì)。但香港政府方面對(duì)數(shù)據(jù)中心建設(shè)非常支持,很多機(jī)房都提供免費(fèi)的制冷供電,甚至提供兩個(gè)電力供應(yīng)商。此外,香港是亞太地區(qū)海底光纜集中交匯地區(qū),通訊覆蓋非常全?;谶@樣的基礎(chǔ)設(shè)施,很多主機(jī)和數(shù)據(jù)中心建設(shè)商都選擇在香港建機(jī)房。
張廣彬告訴記者,因?yàn)楹M鈽I(yè)務(wù)吃重,美國(guó)的互聯(lián)網(wǎng)公司在海外設(shè)立數(shù)據(jù)中心時(shí)多選擇自建模式。但中國(guó)互聯(lián)網(wǎng)公司的云服務(wù)主要服務(wù)于自身本土業(yè)務(wù),在海外擴(kuò)張時(shí)都采用租用模式,即租用機(jī)房和數(shù)據(jù)中心,數(shù)據(jù)中心運(yùn)營(yíng)交給合作伙伴,以此控制成本。雖然租用和自建在運(yùn)營(yíng)過(guò)程中沒(méi)有絕對(duì)的優(yōu)劣對(duì)比,但自建模式的內(nèi)部協(xié)調(diào)效率更高。
在這次事故中,阿里云和名氣通的事故處理都暴露了問(wèn)題。張廣彬介紹,名氣通作為香港煤氣旗下公司,公司依租靠光纖和煤氣同管道鋪設(shè)在網(wǎng)絡(luò)覆蓋上有優(yōu)勢(shì),國(guó)內(nèi)也已經(jīng)建立數(shù)據(jù)中心:”算是有名氣的公司,出這樣的問(wèn)題還是很讓人意外的。“
租用模式中合作伙伴的能力非常重要。騰訊云的合作伙伴是Equinix。騰訊云方面告訴財(cái)新記者對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)商的選擇有嚴(yán)格要求:包括全球范圍內(nèi)有多個(gè)數(shù)據(jù)中心,超過(guò)15年的全球運(yùn)營(yíng)數(shù)據(jù)中心建設(shè)和運(yùn)營(yíng)經(jīng)驗(yàn),多年的良好可用性記錄。騰訊方面還強(qiáng)調(diào),對(duì)于IT設(shè)備等基礎(chǔ)設(shè)施都實(shí)行24小時(shí)全年輪班現(xiàn)場(chǎng)支持。但包括阿里和騰訊等在內(nèi),在香港地區(qū)都是單一數(shù)據(jù)中心,目前尚未具備同城備災(zāi)系統(tǒng)。
河南億恩科技股份有限公司(mszdt.com)始創(chuàng)于2000年,專注服務(wù)器托管租用,是國(guó)家工信部認(rèn)定的綜合電信服務(wù)運(yùn)營(yíng)商。億恩為近五十萬(wàn)的用戶提供服務(wù)器托管、服務(wù)器租用、機(jī)柜租用、云服務(wù)器、網(wǎng)站建設(shè)、網(wǎng)站托管等網(wǎng)絡(luò)基礎(chǔ)服務(wù),另有網(wǎng)總管、名片俠網(wǎng)絡(luò)推廣服務(wù),使得客戶不斷的獲得更大的收益。
服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:
0371-60135900
虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:
0371-55621053
網(wǎng)絡(luò)版權(quán)侵權(quán)舉報(bào)電話:
0371-60135995
服務(wù)熱線:
0371-60135900