本文作者:陳懷臨, 中云網(wǎng)技術(shù)顧問 彎曲評論創(chuàng)辦人 北極光創(chuàng)投投資顧問
4 案例研究--亞馬遜AWS
4.2 Amazon AWS服務(wù)宕機調(diào)查 (2006-2009)
Amazon AWS自2006年3月14開放S3文件存儲服務(wù)和2006年8月25日的EC2服務(wù), 2008年8月的EBS服務(wù)以來, 經(jīng)歷過許多服務(wù)崩潰下線. 其中包括EC2, S3和EBS等. 其影響面涉及到租用其服務(wù)的許多重要的互聯(lián)網(wǎng)公司.
AWS在2008年2月16日, AWS的S3發(fā)生嚴重的服務(wù)宕機并導(dǎo)致許多AWS的用戶的服務(wù)中斷. Amazon的AWS團隊進行了深刻的反思,并在4月8日, 開始提供AWS Service Health Dashboard, 每天跟蹤發(fā)布各種服務(wù)的可靠性.
本節(jié)試圖對AWS上線的重大宕機事件做一個整理列表,并做相應(yīng)的討論.
1 Apri 1, 2006
Amazon在開放其S3存儲服務(wù)不到一個月, 在2006年4月1日,S3發(fā)生宕機事件.
事故原因:S3
事故恢復(fù):6個小時
事故解釋: AWS團隊做S3存儲的負載均衡的管理調(diào)配.結(jié)果導(dǎo)致內(nèi)部網(wǎng)絡(luò)負載崩潰,從而使得S3子系統(tǒng)服務(wù)宕機.
相關(guān)URL: https://forums.aws.amazon.com/thread.jspa?threadID=10185
2. Sept 29 . 2007
Amazon的EC2發(fā)生宕機, 有些客戶丟失了數(shù)據(jù). EC2 API管理功能被短暫的停止使用.
事故原因: EC2
事故恢復(fù): 4個小時
事故解釋:
相關(guān)URL: https://forums.aws.amazon.com/thread.jspa?threadID=17211&start=0&tstart=0
Amazon的AWS團隊的解釋是AWS的一些管理軟件錯誤的設(shè)置導(dǎo)致了一些客戶的虛擬機被誤殺.當(dāng)時為了確保整個AWS服務(wù)的安全,AWS團隊迅速暫時停止了EC2的管理API功能.
3. Feb 15, 2008
08年2月15日, 是Amazon官方對外承認和解釋的第一次重大事故.也從根本的角度影響了產(chǎn)業(yè)界對公有云可靠性的認識和警惕. 并直接導(dǎo)致了Amazon決定加強服務(wù)可用性的監(jiān)管和透明化.
事故原因: S3
事故恢復(fù): 3個小時
事故解釋:
S3服務(wù)子系統(tǒng)的認證(Authentication)服務(wù)無法承受突然的大面積的服務(wù)請求, 從而導(dǎo)致S3系統(tǒng)癱瘓. AWS的官方解釋可參閱:
http://www.zdnet.com/blog/btl/amazon-explains-its-s3-outage/8010
在這次重大宕機之后, AWS團隊對業(yè)界承諾要作出”Service Health Dashboard”, 從而可以透明的使得用戶了解AWS各種服務(wù)狀況.
4. June 5, 2008
08年6月5日, Amazon在東部弗吉尼亞的數(shù)據(jù)中心找到雷電擊.導(dǎo)致該區(qū)域的一些EC2服務(wù)宕機.
事故原因: 雷電
事故恢復(fù): N/A
事故解釋:
雷電導(dǎo)致東部弗吉尼亞的數(shù)據(jù)中心失去電力.導(dǎo)致EC2宕機.
相關(guān)URL: http://www.datacenterknowledge.com/archives/2008/06/05/brief-outage-for-amazon-web-services/
5. June 6, 2008
08年6月6日, 基于Amazon本身的網(wǎng)上零售業(yè)務(wù)突然宕機. 主要是美國和英國的業(yè)務(wù).但AWS本身沒有出現(xiàn)異常.
事故原因: Amazon沒有對這次事故作出任何官方解釋. 只是在非正式場合解釋了”Amazon的網(wǎng)絡(luò)系統(tǒng)非常復(fù)雜. 出了點小事情是很偶然和正常的...”.
事故恢復(fù): 3個小時
事故解釋:
由于Amazon沒有對事故作出正式的解釋,業(yè)界的猜測是Amazon的負載均衡業(yè)務(wù),例如DNS服務(wù)出現(xiàn)了問題. 另外一種說法是Amazon遭到了木馬的惡意DDoS攻擊. 證據(jù)是, 在Amazon主站點宕機的同時, Amazon擁有的IMDB站點(http://www.imdb.com)被DDoS通過流量和層7放大攻擊. 其攻擊流量大概是3Mbits/sec. 下圖是當(dāng)天Amazon美國和英國站點的宕機情況.
6. July 20, 2008
08年的7月20日, S3再次發(fā)生重大宕機事故. 許多重要的客戶受到影響,例如Twitter.Twitter所有的圖像基本上都是存放在Amazon的S3系統(tǒng)里.
事故原因: S3
事故恢復(fù): 8個小時
事故解釋: S3服務(wù)器之間控制信息流不收斂,從而導(dǎo)致S3服務(wù)器無法處理任何用戶的服務(wù)請求. 同時Amazon也承認EC2的服務(wù)也受到了影響.有些客戶的虛擬機無法運行. 另外, Simple Queue Service (SQS)的服務(wù)也受到了沖擊和中斷.
AWS的官方解釋為: http://status.aws.amazon.com/s3-20080720.html
7. June 10, 2009
09年的6月10日, AWS的EC2發(fā)生重大宕機事故. 其原因是數(shù)據(jù)中心遭到雷電擊,失去電力.
事故原因: EC2
事故恢復(fù): 8個小時
事故解釋:
自然氣候, 雷電使得數(shù)據(jù)中心失去電力.
相關(guān)URL: http://www.datacenterknowledge.com/archives/2009/06/11/lightning-strike-triggers-amazon-ec2-outage/
8 July 19, 2009
09年的7月19日, AWS的EC2發(fā)生性能和宕機事故.
事故原因: EC2
事故恢復(fù): 2個小時
事故解釋: N/A
相關(guān)URL: http://www.datacenterknowledge.com/archives/2009/07/19/outage-for-amazon-web-services/
9. Oct 5, 2009
09年的10月5日, Bitbucket公司(一個在線開源項目服務(wù)公司)在AWS上的業(yè)務(wù)宕機19個小時.
事故原因: EC2, EBS
事故恢復(fù): 19個小時
事故解釋:
Bitbucket在AWS上的服務(wù)被黑客用流量攻擊的方法打癱服務(wù). 最開始使用的是UDP Flooding.然后轉(zhuǎn)換為TCP的Flooding. 服務(wù)停頓了19個小時. AWS的運維團隊在處理過程中表現(xiàn)的缺乏經(jīng)驗.
相關(guān)URL: http://www.networkworld.com/community/node/45891
10. Dec 10, 2009
09年的12月10日, AWS的EC2發(fā)生宕機事故. 其原因是數(shù)據(jù)中心遭到雷電擊,失去電力. 地點發(fā)生在東部北弗吉尼亞的數(shù)據(jù)中心
事故原因: EC2
事故恢復(fù): 45分鐘
事故解釋:
自然氣候, 雷電使得數(shù)據(jù)中心失去電力.
相關(guān)URL: http://www.datacenterknowledge.com/archives/2009/12/10/power-outage-for-amazon-data-center/