大數(shù)據(jù)源起:
對未來不確定性的恐懼
我們所生活的世界,就像一片混沌(chaos),大數(shù)據(jù)時代,我們周圍更是充斥著各種不同的理論、知識、信息和噪音,數(shù)據(jù)爆炸式增長和科技高速發(fā)展所帶來的沖擊,加大了未來的不確定性。當我們接收的數(shù)據(jù)和信息越多,面臨的選擇就越多,如若不善于過濾、挖掘和處理,對各種決策就可能會造成負面影響,當然也會放大我們對未來不確定性的恐懼。小到個人命運大到國家前途,都是在這樣一片混沌中煎熬著。
如何從混沌中發(fā)現(xiàn)規(guī)律,成為預測未來的“先知”,抑或是少出幾只黑天鵝?是歷代人類的夢想,不管是古人的占卜、算命還是現(xiàn)在的專家系統(tǒng)、商業(yè)智能、數(shù)據(jù)挖掘、機器學習、人工智能、智慧地球、智慧城市等應用,都源于我們對未來不確定性的恐懼。當然還有應對當前管理走向的失控,軟件在加速吞噬世界,而大部分人類對其原理和特性卻知之甚少,就像華爾街的金融交易一樣,系統(tǒng)越復雜出現(xiàn)黑天鵝的概率就會增大;社交網絡的實時性打破了時空限制,信息的流動速度和廣度讓也管理者越發(fā)難以掌控。隨著舍恩伯格教授《大數(shù)據(jù)時代》一書的面世,給我們帶來了“醍醐灌頂”式的認知洗禮,難道抓住大數(shù)據(jù)這根救命稻草,我們就有機會做“先知”?從而也更有能力把自己和周遭世界管理得更好嗎?在一定程度上是這樣的,但我們也要知道,任何技術都是把雙刃劍。
舍恩伯格其實沒有機器學習背景,書上所說的某些內容也是有爭議的,不過在教育民眾和政府官員科普方面,還是具有重要意義,至少讓大家知道了什么是大數(shù)據(jù),也能在一定程度上促使我們思考大數(shù)據(jù)的價值和潛力,從而提升大數(shù)據(jù)應用水平以應對管理失控和黑天鵝等問題。
大數(shù)據(jù)泡沫:
泡沫是必然但有其深遠意義
數(shù)據(jù)科學其實已經興起多年,從早年的專家系統(tǒng)、數(shù)據(jù)挖掘到前些年的商業(yè)智能,不少大型企業(yè)和機構在管理大數(shù)據(jù)方面積累了豐富的經驗,筆者10年前就曾參與過運營商的數(shù)據(jù)挖掘系統(tǒng)建設,那都是實實在在的大數(shù)據(jù),只不過當時技術手段有限罷了,所以很少人能挖出什么高價值的東西,更談不上智能化決策了。但這些年的技術積累和數(shù)據(jù)積累,卻是極大地促進了大數(shù)據(jù)領域的發(fā)展,不然也沒有那么多人認同舍恩伯格教授書中的觀點。
甲骨文公司CEO埃里森曾說過,高科技是唯一能媲美好萊塢的產業(yè),說明高科技領域的技術明星也是變換極快的。技術和產品一樣,有其發(fā)展周期規(guī)律,大數(shù)據(jù)也只是一種技術手段,最終目的還是要解決現(xiàn)實問題,不管是科研、商業(yè)還是政府管理問題。關注大數(shù)據(jù)的人多了,自然就有泡沫,個人認為泡沫主要體現(xiàn)在如下幾個方面:
(1)這幾年社會上關于大數(shù)據(jù)的宣傳,媒體人的引進和炒作,有部分內容是在誤導大家,主要原因還是很多人在盲人摸象,少有系統(tǒng)的研究和理解。
(2)只知其然不知其所以然,導致對大數(shù)據(jù)應用的期望太高,大數(shù)據(jù)技術不是萬金油,在新的技術泛型和技術生態(tài)下,現(xiàn)階段技術的穩(wěn)定性、成熟性和有效性還待進一步發(fā)展。
(3)關注重點有問題,導致目前的很多大數(shù)據(jù)應用并未涉及到核心業(yè)務和計算模型,多是數(shù)據(jù)的采集和存儲管理,這也是造成行業(yè)整體門檻還不夠高,同質化競爭激烈,沒有發(fā)揮出應有價值的原因。大數(shù)據(jù)泡沫顯然是客觀存在的,但其長期的應用價值卻不容小覷,泡沫不代表沒有價值,就像2000年的互聯(lián)網泡沫,泡沫破滅之后的涅磐,讓人類真正跨入了互聯(lián)網時代。大數(shù)據(jù)泡沫的價值就是讓全民認識到大數(shù)據(jù)時代數(shù)據(jù)分析和數(shù)據(jù)決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。
大數(shù)據(jù)價值:
需要你自己去定義
大數(shù)據(jù)絕不只是數(shù)據(jù)大,不能光看字面意思??梢哉f大數(shù)據(jù)是一套技術體系,可以說是一種認知挖掘過程,也可以說是一種方法論和管理決策思維。
我們要搞懂大數(shù)據(jù)的價值,首先繞不開數(shù)據(jù)挖掘(或更窄的機器學習、或更廣義的人工智能技術)。數(shù)據(jù)挖掘(DataMining),又稱為資料探勘、數(shù)據(jù)采礦,或數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,KDD)。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過各種算法挖掘隱藏于其中的規(guī)律和有價值信息的過程,通常通過統(tǒng)計方法、機器學習、專家系統(tǒng)、模式識別和在線分析處理等諸多方法來實現(xiàn)上述目標。