引言——
2013年初,第85屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)禮在美國(guó)好萊塢舉行。而在頒獎(jiǎng)禮之前,微軟紐約研究院經(jīng)濟(jì)學(xué)家David·Rothschild通過(guò)大數(shù)據(jù)分析,對(duì)此次奧斯卡各獎(jiǎng)項(xiàng)的得主進(jìn)行了預(yù)測(cè)。結(jié)果顯示,除最佳導(dǎo)演獎(jiǎng)有所出入外,其它各獎(jiǎng)項(xiàng)全部命中。這并不是David第一次準(zhǔn)確預(yù)測(cè),在2012年美國(guó)總統(tǒng)大選中,他就曾準(zhǔn)確預(yù)測(cè)了51個(gè)選區(qū)中50個(gè)地區(qū)的選舉結(jié)果,準(zhǔn)確度高于98%。
“大數(shù)據(jù)”時(shí)代的到來(lái),為各個(gè)行業(yè)利用數(shù)據(jù)進(jìn)行預(yù)判、分析、優(yōu)化都起到了至關(guān)緊要的作用。而如何使大數(shù)據(jù)發(fā)揮其根本價(jià)值,真的為我們所用,是全世界數(shù)據(jù)算法科學(xué)家為之奮斗的技術(shù)性難題。
找出數(shù)據(jù)間的關(guān)系——
1980年,托夫勒在《第三次浪潮》中就曾預(yù)言:“如果說(shuō)IBM的主機(jī)拉開(kāi)了信息化革命的大幕,那么‘大數(shù)據(jù)’則是第三次浪潮的華彩樂(lè)章”。
在數(shù)據(jù)呈十萬(wàn)億億字節(jié)ZB級(jí)增長(zhǎng)的當(dāng)下,如何從海量數(shù)據(jù)中獲取并過(guò)濾有價(jià)值的關(guān)系信息,是對(duì)所有數(shù)據(jù)從業(yè)者而言的一大挑戰(zhàn)。而如何建立數(shù)據(jù)間的關(guān)系,也是如何使大數(shù)據(jù)“活”起來(lái)的必經(jīng)之路。
在日常生活中,我們常會(huì)發(fā)現(xiàn)這樣的情況,在諸如谷歌、百度等搜索引擎搜索若干關(guān)鍵詞后,例如“睫毛膏”、“不暈染”、“濃密”、“纖長(zhǎng)”等關(guān)鍵字,在搜索結(jié)果頁(yè)面常會(huì)看到睫毛膏的廣告推廣。似乎,這些搜索引擎明確知道了我們想要做什么、我們會(huì)對(duì)什么感興趣。
這一切其實(shí)并不神奇,這只是算法科學(xué)家通過(guò)數(shù)據(jù)收集、建模、分析之后,將用戶(hù)、搜索字、搜索字相關(guān)廣告這幾類(lèi)數(shù)據(jù)進(jìn)行了關(guān)聯(lián)。所以當(dāng)我們進(jìn)行搜索的時(shí)候,看到匹配的廣告,就并不難以理解了。
最近,美國(guó)的“棱鏡”計(jì)劃引起了全世界范圍內(nèi)的關(guān)注,諸如個(gè)人隱私等話(huà)題被不斷提及。在一系列爭(zhēng)議之中,隨著IT業(yè)巨頭們紛紛被斯諾登拉下水,“大數(shù)據(jù)”這一個(gè)先鋒技術(shù)概念再次被拉到聚光燈前。
有人甚至“善意”的對(duì)后續(xù)前往美國(guó)留學(xué)的求學(xué)者提出建議,在與家人或朋友的電話(huà)中多提及諸如“如何用高壓鍋制造炸彈”、“怎么制造TNT炸藥”等敏感字眼,用來(lái)加大美國(guó)情報(bào)分析機(jī)構(gòu)的工作量。然而,這種方法真的有效嗎?我看并不盡然。
事實(shí)上,沒(méi)有規(guī)律和結(jié)構(gòu)可言的數(shù)據(jù)并無(wú)任何意義,而美國(guó)的數(shù)據(jù)分析家顯然早已認(rèn)識(shí)到這一點(diǎn)。僅僅獲取電話(huà)錄音、上網(wǎng)足跡等數(shù)據(jù)、將這些數(shù)據(jù)匯聚在一起并不足夠,這僅僅完成了“大數(shù)據(jù)”。而真正使數(shù)據(jù)產(chǎn)生價(jià)值,只有將這些碎片化的數(shù)據(jù)進(jìn)行分析比對(duì),將人們的真實(shí)身份、性格、消費(fèi)習(xí)慣、需求等個(gè)人信息還原后,數(shù)據(jù)才得以“活”起來(lái)。
據(jù)美國(guó)數(shù)據(jù)分析家所言,僅通過(guò)一次電話(huà)發(fā)生的時(shí)間、通話(huà)時(shí)長(zhǎng)、通話(huà)的地點(diǎn)這幾條數(shù)據(jù),就可判斷出該通話(huà)是否存在恐怖襲擊的可能性。而這,就是通過(guò)建立海量的用戶(hù)通話(huà)數(shù)據(jù)與恐怖襲擊之間的聯(lián)系后,才得出的分析結(jié)論。
可靠的數(shù)據(jù)模型——
David·Rothschild表示:“我們創(chuàng)建的模型是能夠預(yù)測(cè)未來(lái)的,而不只是過(guò)去發(fā)生的??茖W(xué)是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬(wàn)別。”
和傳統(tǒng)由人工進(jìn)行數(shù)據(jù)統(tǒng)計(jì)及收集的方式,網(wǎng)絡(luò)時(shí)代的數(shù)據(jù)更多來(lái)自機(jī)器,利用機(jī)器進(jìn)行自動(dòng)化的數(shù)據(jù)抓取及存儲(chǔ),并批量化導(dǎo)入數(shù)據(jù)庫(kù)用于后續(xù)分析及使用。
例如某條街道上記錄車(chē)流量的攝像頭,通過(guò)24小時(shí)的實(shí)時(shí)監(jiān)控將道路情況,整理統(tǒng)計(jì)并用于后續(xù)分析。而通過(guò)攝像頭記錄道路情況,顯然比傳統(tǒng)交警站崗統(tǒng)計(jì)違章情況更有效,但同時(shí)對(duì)于數(shù)據(jù)的分析要求也就更高。
在大數(shù)據(jù)時(shí)代,隨著數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行加工和分析的主角,也由原先統(tǒng)計(jì)和分析人員變成了程序員和算法師。程序員和算法師通過(guò)建立了無(wú)數(shù)且復(fù)雜的數(shù)學(xué)模型,并不斷進(jìn)行優(yōu)化與調(diào)整,找尋出數(shù)據(jù)間微妙的聯(lián)系,并在各渠道中對(duì)這些聯(lián)系進(jìn)行應(yīng)用。
我們先撇開(kāi)“棱鏡”計(jì)劃這件事情本身是否應(yīng)該存在的爭(zhēng)議性不談,單純從技術(shù)角度來(lái)講,“棱鏡”計(jì)劃與大數(shù)據(jù)時(shí)代的發(fā)展是密不可分的。