幾十年前,當(dāng)Oracle、SQL等數(shù)據(jù)庫技術(shù)風(fēng)靡全世界的時(shí)候,廣大的IT人士可能不會(huì)想到在幾十年后的今天,一堆堆毫無計(jì)劃性、毫無關(guān)聯(lián)的社交網(wǎng)絡(luò)訪問記錄、圖片,或者音視頻會(huì)成為用戶手心里的“寶貝”,這些數(shù)據(jù)在當(dāng)今可能會(huì)成為一個(gè)生意人致勝的法寶。而對于十幾年前,甚至幾年前開始建設(shè)數(shù)據(jù)中心的管理人員來說,也不會(huì)預(yù)料到后端的存儲(chǔ)空間會(huì)被大量的非結(jié)構(gòu)化數(shù)據(jù)填滿??
非結(jié)構(gòu)化數(shù)據(jù)時(shí)代來臨
是的,大數(shù)據(jù)時(shí)代來了,而且來勢洶洶。大數(shù)據(jù)并不是一項(xiàng)技術(shù),而是由于不斷增長的數(shù)據(jù)量和數(shù)據(jù)種類而逐漸衍生出來的一種現(xiàn)象。搜索一下大數(shù)據(jù)的定義也可以發(fā)現(xiàn),各家廠商都在基于自身的理解去定義大數(shù)據(jù)。以NetApp為例,其大中華區(qū)系統(tǒng)技術(shù)及專業(yè)服務(wù)部總監(jiān)何英華表示,NetApp認(rèn)為大數(shù)據(jù)應(yīng)該包含三大要素,分別是:大分析,幫助用戶獲得價(jià)值;高帶寬,讓數(shù)據(jù)處理速度更快;大內(nèi)容,指的是不丟失任何信息并實(shí)現(xiàn)高擴(kuò)展性。而Teradata天睿公司大中華區(qū)產(chǎn)品技術(shù)及銷售支持副總經(jīng)理張錦滄則從四個(gè)維度解釋了大數(shù)據(jù)的概念——三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大、數(shù)據(jù)種類多和數(shù)據(jù)增長速度快。一個(gè)C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多。
雖然每個(gè)廠商對于大數(shù)據(jù)的理解都不同,但其中一個(gè)共通點(diǎn)就是大數(shù)據(jù)包含了大量的非結(jié)構(gòu)化數(shù)據(jù),包含了諸如圖片、音視頻、郵件、社交網(wǎng)絡(luò)數(shù)據(jù)等等與傳統(tǒng)關(guān)系型數(shù)據(jù)完全不同的數(shù)據(jù)類型。
ESG中國區(qū)總經(jīng)理王叢認(rèn)為,大數(shù)據(jù)與增長量有關(guān),但是不代表增長快的就是大數(shù)據(jù)。從存儲(chǔ)角度來看,數(shù)據(jù)量的增長是一種挑戰(zhàn),如何將這些增速飛快的數(shù)據(jù)進(jìn)行存儲(chǔ)并合理規(guī)劃存儲(chǔ)空間,是亟須解決的問題。而從數(shù)據(jù)分析角度來看,大量的非結(jié)構(gòu)化數(shù)據(jù)的增長在為用戶帶來挑戰(zhàn)的同時(shí),也帶來了很多機(jī)遇。對于以交易型數(shù)據(jù)為主的行業(yè),例如金融、零售業(yè)等,對數(shù)據(jù)進(jìn)行分析,提煉出具有商業(yè)價(jià)值的信息將是此類用戶面臨的大數(shù)據(jù)挑戰(zhàn)。而對于像廣電IPTV、網(wǎng)游、社交網(wǎng)絡(luò)等需要存儲(chǔ)大量的音視頻、圖片、社交網(wǎng)絡(luò)數(shù)據(jù)等等非結(jié)構(gòu)化數(shù)據(jù)的用戶來說,后端存儲(chǔ)如何應(yīng)對飛速增長的龐大數(shù)據(jù)量,是他們面臨的大數(shù)據(jù)挑戰(zhàn)。王叢表示不同種類的行業(yè),面臨的大數(shù)據(jù)挑戰(zhàn)也不可等同視之。
存儲(chǔ)領(lǐng)域的“大數(shù)據(jù)”效應(yīng)
在大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)量的增長是用戶必須要面對的難題之一。近幾年,針對非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)系統(tǒng)也在不斷地出現(xiàn)。例如統(tǒng)一存儲(chǔ)、集群存儲(chǔ)等,都將海量的非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)作為目標(biāo)。這些存儲(chǔ)產(chǎn)品在大數(shù)據(jù)時(shí)代中能否合乎需求呢?
首先,統(tǒng)一存儲(chǔ)產(chǎn)品集中了SAN和NAS存儲(chǔ)兩種功能,分別面向關(guān)系型數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。國內(nèi)市場中,相比于NAS來說,SAN的發(fā)展速度和用戶采用率一直都占據(jù)優(yōu)勢。但隨著最近兩年非結(jié)構(gòu)化數(shù)據(jù)量的攀升,存取文件系統(tǒng)更加有利的NAS系統(tǒng)逐漸受到重視??梢钥闯觯罱膬赡曛?,主流的存儲(chǔ)廠商EMC、NetApp、IBM、HP、Dell都將統(tǒng)一存儲(chǔ)作為了自己的推廣重點(diǎn)。
針對統(tǒng)一存儲(chǔ),王叢表示,它也存在著一定的瓶頸。比如,在某個(gè)時(shí)段,非結(jié)構(gòu)化數(shù)據(jù)猛增,此時(shí),非結(jié)構(gòu)化數(shù)據(jù)的存取會(huì)占據(jù)大部分的帶寬,而結(jié)構(gòu)化數(shù)據(jù)就無法享受到應(yīng)有的帶寬。在數(shù)據(jù)中心用戶中,以數(shù)據(jù)庫為主要內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)往往又有很高的業(yè)務(wù)重要性。因此,王叢表示,對于大數(shù)據(jù)時(shí)代所要面臨的海量非結(jié)構(gòu)化數(shù)據(jù)而言,統(tǒng)一存儲(chǔ)可能會(huì)存在瓶頸。