目前,大數(shù)據(jù)有一個(gè)作用可能還沒有被注意到——大數(shù)據(jù)可以連接大量不同的數(shù)據(jù)孤島,使得大數(shù)據(jù)所覆蓋的范圍更大更廣, 也使得大數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)隨著這個(gè)雪球越滾越大。這樣,使用者可以不斷得到新的數(shù)據(jù), 而用戶也能不斷得到新的服務(wù)。
從現(xiàn)在大數(shù)據(jù)成功應(yīng)用的領(lǐng)域來推斷, 應(yīng)用最多的應(yīng)該是集中在對(duì)過去事件的存儲(chǔ)、抽取,以及對(duì)不同數(shù)據(jù)的聚合聯(lián)通、總結(jié)統(tǒng)計(jì)上。大數(shù)據(jù)聚合的重要作用之一是關(guān)聯(lián)不同數(shù)據(jù)之間發(fā)生的個(gè)別事件。通過連通,實(shí)時(shí)發(fā)現(xiàn)事件真相。有了這樣的數(shù)據(jù)就可以做以下分析:某個(gè)事件在發(fā)生的同時(shí)還會(huì)發(fā)生什么其他事件?如何通過過去數(shù)據(jù)來預(yù)測(cè)未來可能發(fā)生的事件?如何能夠自動(dòng)建議,用某種行為來促使某些事件發(fā)生,或保證某些事件不發(fā)生?等等。
Q9:大數(shù)據(jù)不能做什么?
大數(shù)據(jù)明顯不是萬能的,那么,大數(shù)據(jù)不能做什么呢?
不能替代有效的商業(yè)模式。大數(shù)據(jù)的應(yīng)用不能沒有商業(yè)模式,比如如何在大數(shù)據(jù)業(yè)務(wù)中為用戶帶來價(jià)值,使得數(shù)據(jù)成長(zhǎng)和商業(yè)增長(zhǎng)同步等等。而商業(yè)模式顯然不是能從大數(shù)據(jù)本身挖掘的,而是由具備豐富經(jīng)驗(yàn)的專家來確定的。
不能沒有領(lǐng)導(dǎo)的決斷力。在今天的大部分公司中,數(shù)據(jù)的存在形式無異于一個(gè)個(gè)孤島。把這些數(shù)據(jù)整合起來不僅是個(gè)技術(shù)活,還有很強(qiáng)的管理因素。往往在同一個(gè)公司的不同部門會(huì)有很多競(jìng)爭(zhēng),數(shù)據(jù)就是一個(gè)部門的資產(chǎn)。雖然把幾種不同數(shù)據(jù)聚合在一起會(huì)很有價(jià)值,但能真正做到這一點(diǎn)的公司卻會(huì)發(fā)現(xiàn),要成功做到數(shù)據(jù)整合需要更高級(jí)領(lǐng)導(dǎo)的決斷力。這也是為什么一些很有前瞻性的公司會(huì)專門有一個(gè)部門來負(fù)責(zé)全公司的數(shù)據(jù)業(yè)務(wù)。
不能無目的地挖掘。在大數(shù)據(jù)的初學(xué)者當(dāng)中,有一個(gè)普遍的錯(cuò)覺:當(dāng)我們有了足夠的數(shù)據(jù),就可以在其中漫無目的地找到知識(shí)。這樣的錯(cuò)覺實(shí)際上是不科學(xué)的。數(shù)據(jù)挖掘需要約束與目標(biāo),否則就是大海撈針,必然是徒勞的。比如,開普勒的成功是建立在以太陽為焦點(diǎn)的橢圓形假設(shè)上的。
不能沒有專家。上文提到,大數(shù)據(jù)在不同應(yīng)用領(lǐng)域會(huì)需要不同的專業(yè)知識(shí)來指導(dǎo)。而不同的領(lǐng)域, 需要專家們的參與程度也會(huì)不同。G o o g l e 實(shí)驗(yàn)室有一個(gè)在大量圖片和視頻數(shù)據(jù)中, 讓計(jì)算機(jī)自動(dòng)識(shí)別貓臉的例子。但這樣的深度學(xué)習(xí)很難推廣到其他大數(shù)據(jù)的領(lǐng)域。因?yàn)?,成功的先決條件之一是該領(lǐng)域本身具有非常直觀的層次結(jié)構(gòu), 就像圖片的構(gòu)成一樣。如果某個(gè)領(lǐng)域的數(shù)據(jù)不具備這樣的層次結(jié)構(gòu), 就很難用同樣的方法自動(dòng)發(fā)現(xiàn)規(guī)律。而這樣一個(gè)結(jié)構(gòu)是需要數(shù)據(jù)科學(xué)家來定義的。
不能一次建模, 終生受益。一個(gè)好的模型需要不斷更新, 需要終生學(xué)習(xí)(Lifelong Machine Learning) 來不斷改進(jìn)。例如,在奧巴馬的競(jìng)選中,科學(xué)家建立了一個(gè)用戶投票模型,來預(yù)測(cè)選民可能的立場(chǎng),而這個(gè)模型是每周利用更新的數(shù)據(jù)來更新一次的。
不擅長(zhǎng)做全局性的優(yōu)化分析。大數(shù)據(jù)下的主要數(shù)據(jù)處理方法是“分而治之”,即把大的數(shù)據(jù)分為小塊,一塊一塊地處理, 然后再把結(jié)果合并。這個(gè)過程也許要經(jīng)過很多次,但總的思想是這樣分化、合并之后的結(jié)果,與全局計(jì)算的結(jié)果是一樣的。但是,還有很多問題是不能這樣來解決的。比如,在下圍棋的時(shí)候,每一個(gè)棋子的目的可能和整個(gè)戰(zhàn)略都相關(guān),所以分而治之的想法是行不通的。
不能沒有對(duì)其語義的標(biāo)注。目前只能通過對(duì)數(shù)據(jù)的標(biāo)識(shí)賦予其意義。比如,推薦系統(tǒng)在沒有用戶反饋的情況下效果很差,而通過現(xiàn)有的心理學(xué)模型等加強(qiáng)其效果都無效。一般來說,如果試圖從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),則需要大量的數(shù)據(jù)標(biāo)注。往往在一個(gè)和用戶有直接互動(dòng)的應(yīng)用中是可以得到這樣的標(biāo)識(shí)數(shù)據(jù)的。要得到大量的標(biāo)識(shí)數(shù)據(jù),不僅需要一個(gè)平臺(tái)來承載有用的應(yīng)用,而且需要一個(gè)對(duì)人、對(duì)大數(shù)據(jù)系統(tǒng)的雙贏經(jīng)濟(jì)學(xué)模型。