最近,大家都在討論大數(shù)據(jù)分析及其帶來的商業(yè)情報(bào)的價(jià)值,但是在企業(yè)從這些數(shù)據(jù)中挖掘出有效信息之前,他們必須弄清楚該如何存儲(chǔ)這些大數(shù)據(jù)。管理大數(shù)據(jù)(PB級(jí)或者更大的數(shù)據(jù))與管理傳統(tǒng)大型數(shù)據(jù)集完全不同,在線照片分享平臺(tái)Shutterfly公司就非常清楚這一點(diǎn)。
Shutterfly是一個(gè)在線照片分享網(wǎng)站,它允許用戶上傳無限數(shù)量的照片,并以用戶上傳的分辨率來保存,絕對(duì)不會(huì)壓縮尺寸,這與其他照片分享平臺(tái)有所不同,同時(shí),Shutterfly也表示從來不會(huì)刪除一張照片。
“我們的照片存檔大約是30PB的數(shù)據(jù),”Shutterfly公司高級(jí)副總裁兼首席技術(shù)官Neil Day表示,“我們的存儲(chǔ)池增長(zhǎng)的速度比客戶增長(zhǎng)的速度還快。當(dāng)我們獲得一個(gè)客戶時(shí),他們做的第一件事就是向我們上傳一堆照片,然后他們就會(huì)愛上我們的服務(wù),然后他們又會(huì)上傳另外一堆照片。”
為了對(duì)數(shù)據(jù)規(guī)模有個(gè)認(rèn)識(shí),大家可以看看這些信息:1 PB相當(dāng)于100萬TB或者10億GB,美國(guó)宇航局哈勃太空望遠(yuǎn)鏡前20年觀測(cè)的圖像數(shù)據(jù)大約為45TB的數(shù)據(jù),而以128 KB/s記錄的1TB壓縮音頻大約包含1.7萬小時(shí)的音頻。
完全不同的PB級(jí)基礎(chǔ)設(shè)施
“PB級(jí)基礎(chǔ)設(shè)施是完全不同的一回事,”Day表示,“它們很難建立和維護(hù)。PB或多PB級(jí)基礎(chǔ)設(shè)施與傳統(tǒng)大規(guī)模數(shù)據(jù)集之間的差別簡(jiǎn)直就像白天和黑夜的差別,就像在筆記本電腦上處理數(shù)據(jù)和在RAID陣列上處理數(shù)據(jù)之間的差別。”
當(dāng)Day在2009年加入Shutterfly時(shí),存儲(chǔ)已經(jīng)成為該公司最大的開支,并且以飛快的速度增長(zhǎng)。
“每N個(gè)PB的額外存儲(chǔ)意味著我們需要另一個(gè)存儲(chǔ)管理員來支持物理和邏輯基礎(chǔ)設(shè)施,”Day表示,“面對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ),系統(tǒng)會(huì)更頻繁地出問題,任何管理超大存儲(chǔ)的人經(jīng)常都要處理硬件故障。大家都在試圖解決的根本問題是:當(dāng)你知道存儲(chǔ)的一部分將在一段時(shí)間內(nèi)出現(xiàn)問題,你應(yīng)該如何確保數(shù)據(jù)可用性,同時(shí)確保不會(huì)降低性能?”
RAID問題
解決故障的標(biāo)準(zhǔn)答案是復(fù)制,通常以RAID陣列的形式。但Day表示,面對(duì)龐大規(guī)模的數(shù)據(jù)時(shí),RAID解決問題的同時(shí)可能會(huì)制造更多問題。在傳統(tǒng)RAID數(shù)據(jù)存儲(chǔ)方案中,每個(gè)數(shù)據(jù)的副本都被鏡像和存儲(chǔ)在陣列的不同磁盤中,以確保完整性和可用性。但這意味著每個(gè)被鏡像和存儲(chǔ)的數(shù)據(jù)將需要其本身五倍以上的存儲(chǔ)空間。隨著RAID陣列中使用的磁盤越來越大(從密度和功耗的角度來看,3TB磁盤非常具有吸引力),更換故障驅(qū)動(dòng)器的時(shí)間也將變得越來越長(zhǎng)。
“實(shí)際上,我們使用RAID并不存在任何操作問題,”Day表示,“我們看到的是,隨著磁盤變得越來越大,當(dāng)任何組件發(fā)生故障時(shí),我們回到一個(gè)完全冗余的系統(tǒng)的時(shí)間增加。生成校驗(yàn)是與數(shù)據(jù)集的大小成正比的。當(dāng)我們開始使用1TB和2TB的磁盤時(shí),回到完全冗余系統(tǒng)的時(shí)間變得很長(zhǎng)??梢哉f,這種趨勢(shì)并沒有朝著正確的方向發(fā)展。”
對(duì)于Shutterfly而言,可靠性和可用性是非常關(guān)鍵的因素,這也是企業(yè)級(jí)存儲(chǔ)的要求。Day表示,其快速膨脹的存儲(chǔ)成本使商品系統(tǒng)變得更具吸引力。當(dāng)Day及其團(tuán)隊(duì)在研究潛在技術(shù)解決方案以幫助控制存儲(chǔ)成本時(shí),他們對(duì)于一項(xiàng)叫做糾刪碼(erasure code)的技術(shù)非常感興趣。