對(duì)存儲(chǔ)容量復(fù)雜而無止境的需求讓存儲(chǔ)管理員感到十分頭疼。以下我們將為大家介紹一些如何應(yīng)對(duì)數(shù)據(jù)洪流的方法。
以往只有科研人員、互聯(lián)網(wǎng)巨頭以及亞馬遜、推特、臉譜和Shutterfly等社交媒體巨頭面臨這樣的問題,但是現(xiàn)在越來越多的企業(yè)開始嘗試通過大數(shù)據(jù)挖掘來發(fā)現(xiàn)手中所掌握的有價(jià)值的信息,并以此獲得競爭優(yōu)勢(shì)。如今,沃爾瑪、金寶湯、輝瑞默克和Wawa連鎖便利店等公司正在為他們的大數(shù)據(jù)制訂一套宏偉的計(jì)劃。
為了更快的回應(yīng)客戶、更好的追蹤客戶信息或是更迅速的向市場(chǎng)導(dǎo)入新產(chǎn)品,許多公司開始投資大數(shù)據(jù)分析。
市場(chǎng)研究機(jī)構(gòu)IDC存儲(chǔ)分析師Ashish Nadkarni稱: “對(duì)于身處互聯(lián)網(wǎng)時(shí)代的任何公司來說,如果他們不這樣做,那么他們的競爭對(duì)手就會(huì)這些做。”
目前所有機(jī)構(gòu)都在逐漸被來自內(nèi)部和外部的數(shù)據(jù)所淹沒。在這些數(shù)據(jù)中,許多數(shù)據(jù)是實(shí)時(shí)傳輸過來的,其中又有許多數(shù)據(jù)只會(huì)被用上幾分鐘、幾小時(shí)或是幾天時(shí)間。
市場(chǎng)研究公司Aberdeen Group表示,因此而帶來的存儲(chǔ)需求增長對(duì)大型企業(yè)來說尤為棘手。在這些大型企業(yè)中,從2010年至2011年,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所需要的存儲(chǔ)容量平均增長了44%。無論多大規(guī)模的公司,數(shù)據(jù)存儲(chǔ)需求每隔2.5年就會(huì)翻一番。而且,對(duì)視頻存儲(chǔ)、電子表格、格式化數(shù)據(jù)庫和純非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行優(yōu)化分別需要不同的工具。
Aberdeen 集團(tuán)虛擬化和存儲(chǔ)分析師Dick Csaplar 稱:“能夠讓存儲(chǔ)方面的花銷不隨存儲(chǔ)需求增長而增長是一個(gè)挑戰(zhàn)。”能夠幫助主流大數(shù)據(jù)用戶避免陷入這一惡性循環(huán)的技術(shù)有存儲(chǔ)虛擬化、去重和存儲(chǔ)分層技術(shù)。對(duì)于科研人員、社交媒體網(wǎng)站與仿真項(xiàng)目開發(fā)人員等大數(shù)據(jù)重度用戶,面向?qū)ο蟮暮完P(guān)系型數(shù)據(jù)庫存儲(chǔ)都是不錯(cuò)的選擇。
與內(nèi)部日常存儲(chǔ)平臺(tái)相比,為了以易于訪問的格式存儲(chǔ)拍字節(jié)級(jí)(和更大規(guī)模)數(shù)據(jù),系統(tǒng)在設(shè)計(jì)上要更為復(fù)雜。以下是專家對(duì)管理和存儲(chǔ)大數(shù)據(jù)提出的一些建議。
你正在分析什么類型的數(shù)據(jù)?
所需的存儲(chǔ)類型取決于你分析的數(shù)據(jù)類型與數(shù)量。全部數(shù)據(jù)均有一個(gè)保存期限。例如,股票報(bào)價(jià)只在價(jià)格變動(dòng)前的一或兩分鐘內(nèi)重要。棒球比賽得分對(duì)于人們來說只需要保存24小時(shí)或是直到下一場(chǎng)比賽時(shí)。這一類型的數(shù)據(jù)在最需要的時(shí)候應(yīng)當(dāng)保存在主存儲(chǔ)器中,隨后即可以轉(zhuǎn)移至廉價(jià)的存儲(chǔ)器內(nèi)。多年來的觀察已經(jīng)證明了這一理念,即被長期存儲(chǔ)的數(shù)據(jù)通常并不需要存儲(chǔ)在容易被訪問到的主驅(qū)動(dòng)器上。
你實(shí)際上需要多大存儲(chǔ)容量?
在存儲(chǔ)大數(shù)據(jù)時(shí),你需要的存儲(chǔ)容量和類型取決于你所需要存儲(chǔ)的數(shù)據(jù)大小和這些數(shù)據(jù)的使用時(shí)限。
在大數(shù)據(jù)分析中涉及三種類型的數(shù)據(jù)。Nadkarni稱:“它們能夠?qū)碜远鄠€(gè)來源的數(shù)據(jù)每秒源源不斷的傳輸給你,在這些數(shù)據(jù)失去時(shí)效性之前,你的時(shí)間切片應(yīng)當(dāng)為數(shù)分鐘。”這類數(shù)據(jù)包括天氣、交通、社交網(wǎng)絡(luò)上的趨勢(shì)話題和關(guān)于全球事件的推文等更新信息。
大數(shù)據(jù)還包括了那些休眠數(shù)據(jù)或是公司為了適度使用而生成和控制的數(shù)據(jù)。
數(shù)據(jù)傳輸需要快速捕獲和分析能力。Nadkarni稱:“一旦你分析了它們,你就不再需要它們了。但是對(duì)于休眠數(shù)據(jù)或被公司控制的數(shù)據(jù),你應(yīng)當(dāng)將它們存儲(chǔ)起來。”
哪種類型的存儲(chǔ)工具更合適?
對(duì)于那些剛開始涉足大數(shù)據(jù)存儲(chǔ)和分析的公司,行業(yè)觀察人士建議采用將所有的存儲(chǔ)將放在一個(gè)保護(hù)傘下的存儲(chǔ)虛擬化技術(shù)、去重壓縮數(shù)據(jù)技術(shù)和分層存儲(chǔ)方案,以確保最有價(jià)值的數(shù)據(jù)被存儲(chǔ)在最容易被訪問的系統(tǒng)中。
存儲(chǔ)虛擬化提供了一個(gè)軟件抽象層,讓用戶無法找到物理設(shè)備,并且允許所有設(shè)備作為一個(gè)單一的池被管理。盡管服務(wù)器虛擬化已經(jīng)成為了目前IT基礎(chǔ)設(shè)施中一個(gè)成熟組件,但是存儲(chǔ)虛擬化仍然未被廣泛接受。
在2012年2月份,Aberdeen對(duì)106家大型公司進(jìn)行了調(diào)查。結(jié)果顯示,僅有20%的受訪者表示他們擁有一個(gè)單獨(dú)的存儲(chǔ)管理應(yīng)用。平均下來,3個(gè)管理應(yīng)用對(duì)應(yīng)3.2個(gè)存儲(chǔ)設(shè)備。
盡管如此,許多存儲(chǔ)廠商并不愿意讓自己生產(chǎn)的設(shè)備接受其他廠商產(chǎn)品的管理。Csaplar稱:“存儲(chǔ)虛擬化非常復(fù)雜并且極為耗時(shí)。因此它們無法像服務(wù)器虛擬化那樣被廣泛接受。”相反,許多存儲(chǔ)管理員正在關(guān)注針對(duì)第三或第四層存儲(chǔ)的云解決方案,因?yàn)樵品桨改軌蚋鼮槿菀椎卦诓煌A(chǔ)設(shè)施之間轉(zhuǎn)移數(shù)據(jù),同時(shí)可以降低存儲(chǔ)成本。他補(bǔ)充稱:“許多公司已經(jīng)這么做了,并且收到了良好的效果,但是距離人們的期望值還存在一定的差距。”