幾十年前,當(dāng)Oracle、SQL等數(shù)據(jù)庫技術(shù)風(fēng)靡全世界的時(shí)候,廣大的IT人士可能不會(huì)想到在幾十年后的今天,一堆堆毫無計(jì)劃性、毫無關(guān)聯(lián)的社交網(wǎng)絡(luò)訪問記錄、圖片,或者音視頻會(huì)成為用戶手心里的“寶貝”,這些數(shù)據(jù)在當(dāng)今可能會(huì)成為一個(gè)生意人致勝的法寶。而對(duì)于十幾年前,甚至幾年前開始建設(shè)數(shù)據(jù)中心的管理人員來說,也不會(huì)預(yù)料到后端的存儲(chǔ)空間會(huì)被大量的非結(jié)構(gòu)化數(shù)據(jù)填滿??
非結(jié)構(gòu)化數(shù)據(jù)時(shí)代來臨
是的,大數(shù)據(jù)時(shí)代來了,而且來勢(shì)洶洶。大數(shù)據(jù)并不是一項(xiàng)技術(shù),而是由于不斷增長(zhǎng)的數(shù)據(jù)量和數(shù)據(jù)種類而逐漸衍生出來的一種現(xiàn)象。搜索一下大數(shù)據(jù)的定義也可以發(fā)現(xiàn),各家廠商都在基于自身的理解去定義大數(shù)據(jù)。以NetApp為例,其大中華區(qū)系統(tǒng)技術(shù)及專業(yè)服務(wù)部總監(jiān)何英華表示,NetApp認(rèn)為大數(shù)據(jù)應(yīng)該包含三大要素,分別是:大分析,幫助用戶獲得價(jià)值;高帶寬,讓數(shù)據(jù)處理速度更快;大內(nèi)容,指的是不丟失任何信息并實(shí)現(xiàn)高擴(kuò)展性。而Teradata天睿公司大中華區(qū)產(chǎn)品技術(shù)及銷售支持副總經(jīng)理張錦滄則從四個(gè)維度解釋了大數(shù)據(jù)的概念——三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大、數(shù)據(jù)種類多和數(shù)據(jù)增長(zhǎng)速度快。一個(gè)C指的是處理、升級(jí)或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多。
雖然每個(gè)廠商對(duì)于大數(shù)據(jù)的理解都不同,但其中一個(gè)共通點(diǎn)就是大數(shù)據(jù)包含了大量的非結(jié)構(gòu)化數(shù)據(jù),包含了諸如圖片、音視頻、郵件、社交網(wǎng)絡(luò)數(shù)據(jù)等等與傳統(tǒng)關(guān)系型數(shù)據(jù)完全不同的數(shù)據(jù)類型。
ESG中國區(qū)總經(jīng)理王叢認(rèn)為,大數(shù)據(jù)與增長(zhǎng)量有關(guān),但是不代表增長(zhǎng)快的就是大數(shù)據(jù)。從存儲(chǔ)角度來看,數(shù)據(jù)量的增長(zhǎng)是一種挑戰(zhàn),如何將這些增速飛快的數(shù)據(jù)進(jìn)行存儲(chǔ)并合理規(guī)劃存儲(chǔ)空間,是亟須解決的問題。而從數(shù)據(jù)分析角度來看,大量的非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)在為用戶帶來挑戰(zhàn)的同時(shí),也帶來了很多機(jī)遇。對(duì)于以交易型數(shù)據(jù)為主的行業(yè),例如金融、零售業(yè)等,對(duì)數(shù)據(jù)進(jìn)行分析,提煉出具有商業(yè)價(jià)值的信息將是此類用戶面臨的大數(shù)據(jù)挑戰(zhàn)。而對(duì)于像廣電IPTV、網(wǎng)游、社交網(wǎng)絡(luò)等需要存儲(chǔ)大量的音視頻、圖片、社交網(wǎng)絡(luò)數(shù)據(jù)等等非結(jié)構(gòu)化數(shù)據(jù)的用戶來說,后端存儲(chǔ)如何應(yīng)對(duì)飛速增長(zhǎng)的龐大數(shù)據(jù)量,是他們面臨的大數(shù)據(jù)挑戰(zhàn)。王叢表示不同種類的行業(yè),面臨的大數(shù)據(jù)挑戰(zhàn)也不可等同視之。