“Hi, 各位尊敬的 TeamCola 用戶:
非常抱歉,從昨天下午17點(diǎn)32分開始,TeamCola服務(wù)器掛了。
具體的原因,是我們的阿里云服務(wù)器出現(xiàn)磁盤錯(cuò)誤,在維護(hù)過程中執(zhí)行了重啟操作,然后就徹底掛了。最壞的情況是10月13日的所有新增數(shù)據(jù)丟失。再一次的為這次事件表示我們的歉意!我們誠(chéng)懇的希望得到你們的諒解,在國(guó)內(nèi)找一家靠譜的運(yùn)營(yíng)商太困難了 :(---- TeamCola 團(tuán)隊(duì)”
打開teamcola的官網(wǎng)http://teamcola.com/,以上言論赫然眼前,作為開發(fā)團(tuán)隊(duì)工作日志工具的創(chuàng)始公司,teamcola才剛剛嶄露頭角就立即受到了用戶的關(guān)注和熱情試用,昨日卻突然出現(xiàn)掛機(jī)事件,這是怎么回事?
掛機(jī)事件解析
Teamcola是一款頁(yè)面友好、使用便捷的團(tuán)隊(duì)工作日志記錄軟件,提供記錄、匯總、訂閱、郵件等功能,方便查閱團(tuán)隊(duì)工作進(jìn)度、統(tǒng)計(jì)分類工作并能快速響應(yīng)用戶需求。據(jù)官網(wǎng)和新浪微博顯示,本次掛機(jī)主要原因還是運(yùn)營(yíng)商阿里云的“不靠譜”,并且teamcola微博最新消息,“阿里云方面數(shù)據(jù)回滾已完成,確認(rèn)12日與13日的數(shù)據(jù)已丟失。為確保服務(wù)的穩(wěn)定性我們正在重裝系統(tǒng),TeamCola 預(yù)計(jì)今天下午三點(diǎn)左右恢復(fù)服務(wù)。”
中國(guó)軟件網(wǎng)記者立即關(guān)注了teamcola相關(guān)人員并詢問本次事件的過程和起因:
“企業(yè)用戶的數(shù)據(jù)丟失真不是一件小事,就算這次沒事兒過去了,想問以后teamcola會(huì)不會(huì)更換運(yùn)營(yíng)商呢?怎樣才能建立起云安全和云誠(chéng)信呢?”
古齡:首先我們自己會(huì)做好異地?cái)?shù)據(jù)備份,這樣就算阿里云出問題了,我們也能很快的切換到鏡像平臺(tái)上,另外我們雖然有很多不滿,但是不會(huì)一棒子打死,只是希望我們自己和其他所有服務(wù)提供商都能踏踏實(shí)實(shí)的做好本分的工作,特別是在這個(gè)本來就很落后的國(guó)家 :)
“我看到有人說本次事件不全是阿里磁盤錯(cuò)誤,那到底是什么原因呢?”
古齡 回復(fù)@劉小菲Soft6: 從一開始是在系統(tǒng)上無法創(chuàng)建目錄,然后我們寫了一條工單詢問,按照阿里云的方法處理后還是沒有解決,于是我們重啟了一次服務(wù)器,但是我們的web server需要輸入ssl證書的密碼,所以無法遠(yuǎn)程啟動(dòng),阿里云的工程師沒能第一時(shí)間判斷出來問題,導(dǎo)致他們認(rèn)為是系統(tǒng)出了無法修復(fù)的故障。
“第一,為什么最開始系統(tǒng)出現(xiàn)無法創(chuàng)建目錄的情況?第二,你們?cè)谥貑⒅安恢罒o法遠(yuǎn)程啟動(dòng)嗎?第三,既然遠(yuǎn)程啟動(dòng)不成功為神馬木有及時(shí)聯(lián)系到阿里云告知詳情呢?”
古齡 回復(fù)@劉小菲Soft6:1. 這個(gè)問題的原因是阿里云的操作系統(tǒng)不支持升級(jí),而我們?cè)诓恢榈臅r(shí)候做了升級(jí)操作,所以更新的內(nèi)核會(huì)導(dǎo)致偶爾無法正常創(chuàng)建文件夾;2. 我們確實(shí)不知道重啟后網(wǎng)卡會(huì)后于web server重啟,但是;3. 讓我們覺得非常不好的是,昨天晚上我們反饋這個(gè)問題后,阿里云沒有工程師或客服來跟進(jìn)。
首先,看得出此次掛機(jī)事件還是比較嚴(yán)重的,對(duì)于用戶而言,數(shù)據(jù)丟失可大可小,甚至可能導(dǎo)致企業(yè)用戶丟掉飯碗。對(duì)此,teamcola團(tuán)隊(duì)已推出補(bǔ)救方案,但補(bǔ)救的也許更多是用戶心中的驚嚇和疑問而不是業(yè)務(wù)資金上的丁點(diǎn)兒數(shù)字。
其次,本次事件雖然主因在阿里,并且根據(jù)teamcola人員的反應(yīng)來看,阿里的態(tài)度并不盡人意。“沒能第一時(shí)間判斷出來問題”“沒有工程師或客服來跟進(jìn)”,筆者畢竟想問問阿里的工程師去做客服而客服去做工程師了嗎?
第三,作為初始創(chuàng)業(yè)公司,思慮不周全,與運(yùn)營(yíng)商連通不順暢也是很大一部分的原因。沒有提前做好備份;沒有提前了解清楚操作系統(tǒng)是否支持升級(jí)和是否支持遠(yuǎn)程重啟便貿(mào)然執(zhí)行;沒有與阿里那邊“上下一氣”,做到有效溝通。都是一早便為本次掛機(jī)事件埋下的隱患。
云安全并非說說 云誠(chéng)信懸空未落
本次掛機(jī)事件,許多用戶都對(duì)云安全提出了疑問,甚至提出了一個(gè)新的口號(hào)叫“云誠(chéng)信”。想來也確然,云計(jì)算的概念在國(guó)內(nèi)炒得是風(fēng)風(fēng)火火,而云計(jì)算的落地卻“雨點(diǎn)”小的很。這多少讓國(guó)人有點(diǎn)杞人憂天,安全問題是頭等大事,數(shù)據(jù)丟失好歹還是有用的沒用的數(shù)據(jù)都羽化升天了,要是有效數(shù)據(jù)不幸泄露可如何是好,這不禁讓很多用戶對(duì)徜徉云端望而卻步起來。
“微笑的delia //@蔡學(xué)鏞:這種新聞看多了,會(huì)讓人不太敢用云計(jì)算的服務(wù)呢!要是數(shù)據(jù)真丟失了,那是很恐怖的事 //@Fenng:云服務(wù)器咋還掛了呢?阿里云的人呢?”
“James_wugq 云的最基本功能之一就是就決數(shù)據(jù)安全問題,否則叫什么云啊?”
“麗人購(gòu)物 在中國(guó),云服務(wù)可怕的不是技術(shù)問題,可怕的是人心和誠(chéng)信問題,云服務(wù)在中國(guó),等誠(chéng)信體制建立起來再說吧,不然別人掌握著你的數(shù)據(jù)和信息就會(huì)變成別人撈錢的工具//@建時(shí):云服務(wù)器 可怕 //@蔡學(xué)鏞:這種新聞看多了,會(huì)讓人不太敢用云計(jì)算的服務(wù)呢! //@Fenng:云服務(wù)器咋還掛了呢”
“兆民云計(jì)算官方微博 做云服務(wù),必須小心小心再小心啊。一次宕機(jī)、一次出錯(cuò),不僅會(huì)給客戶帶來滅頂?shù)膿p失,更能把公司的飯碗全部砸掉//”
據(jù)悉,目前teamcola已正常運(yùn)轉(zhuǎn),想要試用可直接登錄官方網(wǎng)站http://teamcola.com/申請(qǐng)。雖然本次事件事發(fā)突然,但用戶普遍還是對(duì)teamcola團(tuán)隊(duì)及時(shí)通知用戶和致歉的態(tài)度表示了欣慰和滿意。中國(guó)軟件網(wǎng)也將繼續(xù)為您關(guān)注創(chuàng)始公司的點(diǎn)滴發(fā)展。
附阿里云進(jìn)展回復(fù)
阿里云在 2011-10-14 09:33:04 回復(fù): 回滾已完成,目前系統(tǒng)開機(jī)自檢,在繼續(xù)觀察情況,還請(qǐng)繼續(xù)關(guān)注,謝謝。
阿里云在 2011-10-14 09:45:59 回復(fù):您好,回滾到13號(hào)凌晨仍然無法啟動(dòng),請(qǐng)回想一下什么時(shí)候主機(jī)是正常的,您什么時(shí)候做的升級(jí)操作,建議嘗試回滾到更早的時(shí)間。
TeamCola在 2011-10-14 09:54:10 提交:主機(jī)從幾周前前就偶爾有無法建立目錄的問題,但是具體是哪天我也不知道,請(qǐng)回滾到10月 12日試試看呢?如果實(shí)在無法回滾,能把硬盤里的數(shù)據(jù)取出來么?我可以選擇重新安裝系統(tǒng),但是數(shù)據(jù)可以還原進(jìn)去。
阿里云在 2011-10-14 10:41:00 電話:(大意)工程師正在備份硬盤數(shù)據(jù),備份后請(qǐng)重置服務(wù)器系統(tǒng),老數(shù)據(jù)會(huì)在系統(tǒng)重置后由阿里云工程師掛載到新系統(tǒng)上,屆時(shí)即可做數(shù)據(jù)恢復(fù)。工程師導(dǎo)出硬盤數(shù)據(jù)后會(huì)和我們聯(lián)系。
阿里云在 2011-10-14 11:41:00 電話:(大意)系統(tǒng)已經(jīng)由工程師回滾,但是由于系統(tǒng)不支持升級(jí)操作,所以回滾后的系統(tǒng)還是不穩(wěn)定,建議備份系統(tǒng)中的數(shù)據(jù),重置系統(tǒng)后再還原。(回滾的系統(tǒng)版本是2011-10-12零點(diǎn)左右的數(shù)據(jù),因此丟失了12號(hào)和13號(hào)的,我們已經(jīng)詢問能否找回這兩天的數(shù)據(jù)了)。
阿里云在 2011-10-14 13:35:00 電話:(大意)回滾到12號(hào)后就沒有之后的快照文件,因此無法找回12號(hào)和13號(hào)的數(shù)據(jù),因?yàn)橄到y(tǒng)在之前使用apt-get upgrade升級(jí)過kernel版本,但是阿里云的操作系統(tǒng)不支持,所以現(xiàn)在的系統(tǒng)還是有風(fēng)險(xiǎn),所以建議重裝一次系統(tǒng)。(我們已經(jīng)開始重裝系統(tǒng),預(yù)計(jì)在今天下午3點(diǎn)左右恢復(fù)TeamCola的訪問,再一次的,表示我們的歉意。)