“通過大數(shù)據(jù)的挖掘,從資料完整度、交友真誠度及賬號安全度評定用戶‘靠譜度’。”一家著名婚戀介紹網(wǎng)站最近打出廣告,聲稱可用“大數(shù)據(jù)”技術(shù)打擊相親騙子。
如今,“大數(shù)據(jù)”是一個時髦的詞匯,很多商家紛紛推出“大數(shù)據(jù)”服務(wù)。全世界的大數(shù)據(jù)技術(shù)研發(fā)機構(gòu)都吸引了眾多風(fēng)投和眼球。
大數(shù)據(jù)讓人眼前一亮,也讓人兩眼一黑。9月,著名信息技術(shù)分析公司Gartner發(fā)布《2013年大數(shù)據(jù)普及程度背后的炒作》報告,指出2013年30%的企業(yè)已開始大數(shù)據(jù)工作,而另外34%的企業(yè)有計劃在兩年內(nèi)開始。但這些企業(yè)大多告訴調(diào)查者,不知道自己在做什么,也不知道為什么要做大數(shù)據(jù)工作。
根據(jù)這一報告,半數(shù)以上企業(yè)不知道如何從數(shù)據(jù)中獲取價值;三分之一的企業(yè)缺乏大數(shù)據(jù)處理能力;甚至還有超過五分之一的公司不知大數(shù)據(jù)究竟為何物。
如果連嗅覺靈敏的企業(yè)家們都不真正理解大數(shù)據(jù),其他人就更是難窺其全貌。大數(shù)據(jù)時代還在雛形,它會變成什么樣子沒人能說準(zhǔn)。
起源于科學(xué)界的商業(yè)熱詞
盡管商界對大數(shù)據(jù)帶來的商機津津樂道,但一開始討論大數(shù)據(jù)時代的是科學(xué)家。“生命與醫(yī)療、粒子物理、天氣預(yù)報、基因?qū)W、地震預(yù)報等已經(jīng)是數(shù)據(jù)密集型應(yīng)用了。”清華大學(xué)自動化系教授肖田元說,“典型的例子是美國氣象預(yù)報局年數(shù)據(jù)量達30PB(1PB=100萬GB),每日觀察資料超過35億份。DNA序列分析使用網(wǎng)絡(luò)大數(shù)據(jù)分析工具進行億萬次DNA短鏈分析,制造基于DNA的分子物質(zhì)??茖W(xué)家還推出大尺度數(shù)據(jù)管理架構(gòu)與可視化方法,讓解碼人類基因組這種原先花費10年的工作可以在一周內(nèi)完成。”
上海大學(xué)教授費敏銳介紹道:“像華大基因,分析的數(shù)據(jù)量有幾百PB。他們在全世界找到了25種栽培稻和24種野生稻,正因為有大數(shù)據(jù)分析能力,他們掃描了這些水稻的全基因圖,找到了162個決定水稻產(chǎn)量的基因。”
大型強子對撞機(LHC)的例子更是常被提及,LHC每秒鐘生成1PB的數(shù)據(jù),要用4.5萬個磁帶機做存檔,是目前世界上最大的數(shù)據(jù)生產(chǎn)者。
在此背景下,2008年9月,《自然》雜志推出大數(shù)據(jù)???,探討科研形態(tài)變化;《科學(xué)》雜志2011年也推出大數(shù)據(jù)專刊,將大數(shù)據(jù)深度分析看成未來研究的突破點。
“真正開始討論大數(shù)據(jù),大家都公認是《自然》雜志2008年的專輯所帶來的。”電子科學(xué)研究院研究員王積鵬說,“計量文獻來看,討論大數(shù)據(jù)的論文2011年發(fā)生井噴。這幾年大家都拿大數(shù)據(jù)說話,但是主要在于應(yīng)用,而不是在于理論研究。”
科學(xué)家們當(dāng)時的憂慮是大數(shù)據(jù)難以處理,肖田元說:“計算機已經(jīng)超過了千萬億次級,‘天河二號’是2000萬億次,未來10年可能達到億億次。但是軟件發(fā)展很慢。美國也是這樣,認為高性能計算的算法開發(fā)滯后。我們國家高性能計算機為什么利用率不高,原因就在這里。”
典型的數(shù)據(jù)管理困境,如國內(nèi)一位信息技術(shù)工作者所說:“我做過某衛(wèi)星的信息資源管理,衛(wèi)星每天產(chǎn)生上百GB的數(shù)據(jù)量。處理完之后,文件都存在相應(yīng)的磁盤、磁帶等,通過幾個系統(tǒng)呈現(xiàn),一年下來數(shù)據(jù)量相當(dāng)大,但是并沒有產(chǎn)生大數(shù)據(jù)的特性。”
工業(yè)界也提出了類似問題,肖田元舉例說:“有個著名的發(fā)動機公司提出設(shè)想,把它的航空發(fā)動機數(shù)據(jù)實時傳到總部,結(jié)合過去的數(shù)據(jù),實時檢測和預(yù)報故障。數(shù)據(jù)量非常大,現(xiàn)在要同時檢測、計算和預(yù)報,很難做到。”這一困難,肖田元概括為“科研智能如何趕上感知能力”。
在科研界關(guān)于大數(shù)據(jù)挑戰(zhàn)的討論之后,互聯(lián)網(wǎng)商業(yè)看到了大數(shù)據(jù)中的“金礦”。這也是被如今大家所熟悉的大數(shù)據(jù)議題。最典型的例子如宏源證券研究所副所長易歡歡介紹:“阿里巴巴,最早從B2B到B2C,聚集了千萬級的中小微企業(yè),形成了5.4億注冊用戶。這個公司牛在哪?這些數(shù)據(jù)背后的因素包括什么?銷售數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、應(yīng)收賬款、存貨、資金流向、物業(yè)信息等一系列綜合信息,而且是實時的,遠比銀行報表準(zhǔn)確得多。它有你的消費偏好、家庭地址、還款卡號等一系列信息,這才叫大數(shù)據(jù)。”
IT業(yè)研究公司M&M發(fā)布的一份最新報告指出,全球大數(shù)據(jù)市場將在未來5年內(nèi)迎來高達26%的年復(fù)合增長率——即從今年的148.7億美元增長到2018年的463.4億美元。膨脹速度如此快,可見市場對大數(shù)據(jù)概念響應(yīng)的熱烈。