大家也許還沒意識到,但實際上數(shù)據(jù)的重要意義已經(jīng)不局限于計算機系統(tǒng)當中的關(guān)鍵性要素——數(shù)據(jù)已經(jīng)在各個領(lǐng)域開枝散葉、成為維系整個世界的樞紐。
引用來自摩根大通公司一位常務(wù)董事的評價,數(shù)據(jù)已經(jīng)成為“企業(yè)的命脈”。他是在最近剛剛舉辦的一場重要技術(shù)會議(以數(shù)據(jù)為主要討論對象)上拋出這番言論的,本次會議還深入解析了各機構(gòu)走向“數(shù)據(jù)驅(qū)動”之路的途徑。
《哈佛商業(yè)評論》雜志稱“數(shù)據(jù)科學(xué)家”將成為“二十一世紀最性感的職位”。在這篇刊發(fā)的文章中,作者詳細描述了Netflix如何采集每位用戶所進行的每一項操作,并將我們“從快樂的用戶轉(zhuǎn)化成無意識的傀儡”。文章還告誡大家稱“海量數(shù)據(jù)分析與處理已經(jīng)成為現(xiàn)實,且有愈演愈烈之勢。”
不顧后果、毫無章法地使用“大數(shù)據(jù)”概念
前面提到的所有文章都在極力鼓吹大數(shù)據(jù)的優(yōu)勢與威能,并希望借此實現(xiàn)大數(shù)據(jù)的宣傳、營銷或者盈利目標——毫無疑問,大數(shù)據(jù)已經(jīng)成為今年最耀眼的技術(shù)發(fā)展趨勢。如果讀者朋友自己是技術(shù)人士,應(yīng)該會明顯感覺到如今這個時代開口不談大數(shù)據(jù)簡直沒臉跟同仁打招呼。但與此同時,大家似乎對這個話題都說不出個所以然,因為沒幾個人能真正說清大數(shù)據(jù)是個什么玩意兒。呃,其實這一結(jié)論也有點武斷。嚴格來說,目前的大數(shù)據(jù)概念主要從屬于幾股以產(chǎn)品為載體的派別:
• 由于業(yè)界大佬谷歌、Facebook及Amazon對于信息的極度渴求,處于爆炸式增長中的新數(shù)據(jù)被批量收集起來(包括存儲、處理以及分析)。
• 信息的多元化特性愈發(fā)顯著,這一狀況源自網(wǎng)上購物、Facebook狀態(tài)更新、tweet內(nèi)容、圖片共享以及各類登記資料等等。
• 整個業(yè)界都在渴求一種能夠?qū)⑷绱她嫶髷?shù)據(jù)盡快、盡可能高效打理好的方案。
然而大數(shù)據(jù)概念似乎正被不顧后果、毫無章法地過度使用;即使偶爾使用方法對路,其適用范圍也并不像技術(shù)人員想象的那么寬泛。
前面提到的三種派別都是真實存在的。谷歌公司正在極力攫取來自各類資源的每一字節(jié)信息內(nèi)容,試圖為盡可能多的用戶創(chuàng)建與其使用習慣相匹配的配置文件。(這種思路無疑是把雙刃劍:就以Google Now為例,它會以‘在客戶發(fā)現(xiàn)需求前推薦合適的產(chǎn)品’為借口大肆進行廣告宣傳——但在這里我們不打算討論道德層面的問題。)
很顯然,這種源自各類源頭的數(shù)據(jù)信息不會以規(guī)則的形式存在。因此谷歌公司可能需要一套獨特的處理工具集來打理這些數(shù)據(jù),至少這類方案不同于過去存在的任何數(shù)據(jù)數(shù)量及類型。
目前聲名最盛的兩大工具分別為Hadoop——一款非關(guān)系型分布式數(shù)據(jù)庫框架——與MapReduce——一套由谷歌公司開發(fā)的算法集合,旨在將來自各類資源的多元化數(shù)據(jù)整理為獨立的一套鍵/值對。通過Hadoop與MapReduce,谷歌能夠?qū)⒑A繑?shù)據(jù)集合拆分為可以管理的數(shù)據(jù)塊,并通過服務(wù)器群獨立處理這些非狀態(tài)化數(shù)據(jù)塊。
這一切真能成為現(xiàn)實嗎?在無需復(fù)雜的預(yù)處理過程的前提下將原本無法輕松、快速管理的大數(shù)據(jù)集合通過關(guān)系型數(shù)據(jù)庫打理好?有可能。
谷歌公司的特殊需求
MapReduce真如傳聞中那樣有能力承載數(shù)據(jù)合并技術(shù)之王、游戲規(guī)則改寫者的桂冠嗎?答案幾乎是否定的:谷歌公司此項專利技術(shù)的合法性一直備受質(zhì)疑,而且不少現(xiàn)有產(chǎn)品都能夠以更簡單的方式輕松實現(xiàn)相同的功能。目前谷歌在網(wǎng)絡(luò)上公布的基本MapReduce實例只有幾十行Java代碼,從這些內(nèi)容上看我們找不到任何革命性的理念及突破。
但我們姑且假設(shè)谷歌公司需要這些工具來滿足自身非常獨特的需求,換言之,我們不妨假定各類現(xiàn)有工具及數(shù)據(jù)庫框架還不足以實現(xiàn)谷歌的技術(shù)雄心。在這種情況下,大數(shù)據(jù)顯然并不能成為適用于所有機構(gòu)、適合處理所有海量計算機應(yīng)用的方案。盡管大數(shù)據(jù)支持者們始終堅信這一點,但我們對于此類新型數(shù)據(jù)庫及軟件模型尚無法寄托如此級別的厚望。
大量數(shù)據(jù),甚至是海量數(shù)據(jù)的不斷涌現(xiàn)也早已算不上什么新鮮事。在投資銀行領(lǐng)域,高頻交易系統(tǒng)始終需要以微秒為時間單位處理眾多交易事務(wù);市場數(shù)據(jù)引擎多年來也一直需要以秒為單位存儲并處理成千上萬價格標記。
再來說說我的朋友Ken Caldeira,他在斯坦福大學(xué)卡內(nèi)基研究所里埋頭鼓搗氣象科學(xué)。正如預(yù)料,我發(fā)現(xiàn)他經(jīng)常需要與“PB級數(shù)據(jù)”打交道。我另一位曾在華爾街接受過數(shù)據(jù)分析工程培訓(xùn)的物理學(xué)家同事則在2000年之后花了長時間搞基因組研究,根據(jù)他的說法整個研究過程中存在“數(shù)據(jù)驚人的數(shù)據(jù)需要進行分析”。