究竟什么是大數(shù)據(jù)?答案多種多樣,其中Gartner著名的3V特征是最常被引用的定義——大數(shù)據(jù)是指高容量、高速度、多樣性的信息,需要新的工具來管理。盡管如此,對于大數(shù)據(jù)的定義,仍然存在模糊,開放數(shù)據(jù)中心聯(lián)盟(ODCA)試圖通過其最新的“大數(shù)據(jù)消費指南”來幫助企業(yè)解答什么是大數(shù)據(jù)、為什么它會如此重要以及如何從中獲益。
ODCA創(chuàng)建于2010年,其主要目標是為云計算開發(fā)開放標準。在接受電話采訪時,ODCA負責人表示,該聯(lián)盟的“大數(shù)據(jù)消費指南”是對其云計算工作的合乎邏輯的延伸。ODCA首席技術(shù)顧問John Pereira表示:“現(xiàn)在存在很多云計算范式,這也是大數(shù)據(jù)環(huán)境想要利用的優(yōu)勢。”
Pereira指出,大數(shù)據(jù)的本質(zhì)非常適合云環(huán)境中,特別是大數(shù)據(jù)的數(shù)據(jù)量可以在很短的時間內(nèi)顯著增長。
他補充說:“由于大數(shù)據(jù)的這種性質(zhì),你可能會考慮一個分布式的環(huán)境,而云計算范式將幫助你朝這一方向邁進。”
該消費指南總結(jié)了大數(shù)據(jù)平臺如何可以幫助各行各業(yè)。例如,銀行可以關(guān)聯(lián)來自多個不相關(guān)來源的數(shù)據(jù),以發(fā)現(xiàn)潛在的信用卡欺詐。此外,該指南還提供了統(tǒng)一的定義和術(shù)語,可供企業(yè)在與大數(shù)據(jù)服務供應商合作時使用。
該指南還引用了來自IDC的驚人的統(tǒng)計數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)占當今企業(yè)內(nèi)信息的90%以上,其中大部分存儲在文檔、電子郵件、文本和web內(nèi)容中。
屬于“大數(shù)據(jù)”的非結(jié)構(gòu)化數(shù)據(jù)包括來自傳感器的機器生成的數(shù)據(jù)、機器日志和手機GPS信號,以及來自社交網(wǎng)站和網(wǎng)上交易的數(shù)據(jù)。
該消費指南將Apache Hadoop稱為“領(lǐng)先的大數(shù)據(jù)技術(shù)”,但指出還有很多其他開源大數(shù)據(jù)項目也可供選擇,包括Riak、MongoDB、CouchDB、Redis、Hypertable、Storm、Spark和高性能計算集群(HPCC)。
“我們正在嘗試將廠商中立的方法引入到我們的建議和方向中,”Pereira表示,“我們盡量避免傾向于某個特定的供應商。”
這名ODCA負責人表示,企業(yè)需要提前仔細規(guī)劃自己的大數(shù)據(jù)戰(zhàn)略,以避免浪費資源和金錢的不良做法。
“你想要以最有效的方式來寫入數(shù)據(jù),而不是一遍又一遍地復制相同的數(shù)據(jù)集,你如何記錄前面的信息是非常重要的,”ODCA執(zhí)行董事Marvin Wheeler表示,“這主要是關(guān)于如何寫入數(shù)據(jù),以確保數(shù)據(jù)不會像在傳統(tǒng)方法中那樣到處蔓延。”處理數(shù)據(jù)蔓延是企業(yè)面臨的關(guān)鍵問題。根據(jù)麥肯錫全球研究院表示,17個美國業(yè)務部門中有15個部門比美國國會圖書館存儲的數(shù)據(jù)更多。并且,一些研究人員估計,90%的數(shù)據(jù)產(chǎn)生于過去兩年中。越來越多地使用視頻分析技術(shù)就是一個例子。
“如果你回到五年前,誰會想到保存視頻,以及對視頻進行分析以做出更好的商業(yè)和購物決定,而現(xiàn)在,這已經(jīng)成為每個人的想法,”Pereira 表示,“這完全回溯到大數(shù)據(jù)的核心,這也是讓大數(shù)據(jù)作為有趣的新技術(shù)和范式的原因之一。”(鄒錚編譯)