4月21日發(fā)生的Amazon EC2故障事件現(xiàn)在已廣為人知。一般情況下,發(fā)生這樣的事件,受到指責(zé)、責(zé)備是再所難免,更有可能被訴諸法律。但到事情發(fā)展到最后,許多人和企業(yè)都將其歸咎于云計(jì)算,一致認(rèn)為使用云計(jì)算存在著太多的隱患。不過(guò),在筆者看來(lái),這可不是一個(gè)正確的結(jié)論。此言從何說(shuō)起呢?
首先,一般的云服務(wù)尤其是Amazon在過(guò)去三年里取得了非常好的成績(jī),它們促成了以前不可能存在的新業(yè)務(wù)模式。不管是大型企業(yè)還是小公司都在不斷的借助于云服務(wù)提供大部分的IT基礎(chǔ)設(shè)施架構(gòu)。其中一些公司還表示,如果沒(méi)有類似Amazon提供的云服務(wù),他們簡(jiǎn)直就不能生存。
Amazon故障的消息之所以會(huì)受到廣泛的關(guān)注是因?yàn)楝F(xiàn)在有許多的公司都依靠這類型的服務(wù)發(fā)展業(yè)務(wù),尤其是許多公司都選擇了Amazon。Amazon曾在2009年7月自豪的宣布當(dāng)時(shí)有1400家公司使用了EC2服務(wù)進(jìn)行關(guān)鍵業(yè)務(wù)的運(yùn)營(yíng)。至此之后,使用云計(jì)算的公司數(shù)量就以指數(shù)級(jí)速度爆增。
我們不應(yīng)該指責(zé)云提供商的第二個(gè)原因在于他們并不需要對(duì)其服務(wù)的使用方式負(fù)責(zé)。一些人爭(zhēng)論表示類似Amazon的提供商應(yīng)該了解正在托管的服務(wù),并防止“重要”的應(yīng)用使用Amazon Web Services (AWS)開(kāi)啟。雖然這個(gè)理由看似很有說(shuō)服力,但還需要細(xì)細(xì)推敲。
這個(gè)問(wèn)題同樣可以詢問(wèn)ISP(互聯(lián)網(wǎng)服務(wù)器提供商)、電信甚至是公共服務(wù)提供商。如果所依賴的服務(wù)沒(méi)有得到充分的計(jì)劃,服務(wù)提供商應(yīng)該負(fù)責(zé)嗎?如果公共事業(yè)服務(wù)商沒(méi)有預(yù)防災(zāi)難的應(yīng)急通信和電力計(jì)劃,他們應(yīng)該阻止一家醫(yī)院使用使用電話或電力服務(wù)嗎?
相信大部分人和大部分法院的答案都會(huì)是“不”,事實(shí)上,這些服務(wù)提供商對(duì)其他人關(guān)于預(yù)防災(zāi)難的不作為是沒(méi)有責(zé)任的?;ヂ?lián)網(wǎng)服務(wù)提供商對(duì)數(shù)據(jù)流誤用也是不用承擔(dān)責(zé)任的,就像電信公司不用對(duì)犯罪分子使用其電話負(fù)責(zé)一樣。
最后,我們不應(yīng)該太快判決Amazon和其他云提供商的最重要原因在于,這又一次說(shuō)明了人是關(guān)鍵環(huán)節(jié)。這次及其他故障都向我們揭示了這樣一個(gè)道理:沒(méi)有任何東西可以取代聰慧的人類和災(zāi)難恢復(fù)計(jì)劃。
在近期這個(gè)事件發(fā)生期間,能夠持續(xù)使用Amazon EC2的企業(yè)也有數(shù)千余家。這些企業(yè)選擇了Amazon高可用功能,比如自動(dòng)故障恢復(fù)和交換可用區(qū)域,能夠繼續(xù)保持業(yè)務(wù)的正常運(yùn)營(yíng)。僅運(yùn)行Amazon EC2的高知名度企業(yè)包括了Netflix,以及其他保持正常在線的數(shù)千家企業(yè)。
云計(jì)算并不能減輕對(duì)計(jì)劃的需求,反而更加強(qiáng)調(diào)該需求。隨著云計(jì)算的遷移, IT架構(gòu)師、首席技術(shù)官和首席信息官的價(jià)值只會(huì)越來(lái)越重要。
這并不是服務(wù)提供商遭遇的第一次故障,也不會(huì)是最后一次。任何人都不希望聽(tīng)到數(shù)據(jù)中心發(fā)生故障的消息,特別是IT人員。這兩者的唯一區(qū)別是單一的事件同時(shí)暴露了眾多設(shè)計(jì)不良的應(yīng)用。
引用Amazon自有的設(shè)計(jì)準(zhǔn)則,建立在EC2之上的優(yōu)良設(shè)計(jì)構(gòu)架能夠保持重要信息(數(shù)據(jù)庫(kù)、日志文件等等)可易于管理持久穩(wěn)固且冗余的數(shù)據(jù)存儲(chǔ),能夠進(jìn)行快照、復(fù)制、分離并連接至新服務(wù)器。
真正唯一的失敗是沒(méi)有為本地故障作計(jì)劃。Amazon提供了地區(qū)和這些地區(qū)的可用區(qū)域。具體說(shuō)來(lái),在北美地區(qū),Amazon為東部提供了三個(gè)區(qū)域,為西部提供了三個(gè)區(qū)域。最近的故障只涉及美國(guó)東部一區(qū)的系統(tǒng)。
運(yùn)行良好的公司已經(jīng)設(shè)計(jì)了可供數(shù)十年的高可用性系統(tǒng)。Amazon幾乎提供了容錯(cuò)系統(tǒng)所需的所有工具,但設(shè)計(jì)妥善的應(yīng)急計(jì)劃、部署具有彈性和容錯(cuò)的IT架構(gòu)還是操之于使用這些服務(wù)的公司。
結(jié)語(yǔ)
正所謂吃一盞長(zhǎng)一智,對(duì)于哪些還不了解IT架構(gòu)和規(guī)劃重要性的人來(lái)說(shuō),這必將是一個(gè)分水嶺。Amazon故障事件從另外一個(gè)側(cè)面也體現(xiàn)了大大小小的公司采用這些服務(wù)的速度之快。
云計(jì)算和IT服務(wù)提供商能促成新的業(yè)務(wù)模式,同時(shí)也允許現(xiàn)有業(yè)務(wù)簡(jiǎn)化運(yùn)營(yíng)。在未來(lái)新的時(shí)代里,IT不再是一個(gè)必須內(nèi)部提供的資本密集型功能。云服務(wù)提供商具有更多的選擇性和靈活性,但是這些選擇也意味著更多的責(zé)任。
現(xiàn)在的形勢(shì)依然是為提供關(guān)鍵任務(wù)IT,公司必須尋找和留住有才能的IT人才。動(dòng)態(tài)業(yè)務(wù)將越來(lái)越依靠IT和提供這些服務(wù)的專業(yè)人員。
總而言之,人是最為重要的,而Amazon EC2故障事件是不是也應(yīng)該被當(dāng)做一次教訓(xùn)?