過去人們嘗試使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來處理非結(jié)構(gòu)化數(shù)據(jù),但結(jié)果是力不從心。直到谷歌在研發(fā)頁面檢索服務(wù)的過程中,解決了網(wǎng)頁、文檔這類數(shù)據(jù)的快速訪問難題,成為大數(shù)據(jù)技術(shù)的先驅(qū)。此后雅虎的一個開發(fā)小組,把谷歌的成果開發(fā)出大數(shù)據(jù)處理的一套程序框架,就是眾所周知的Hadoop。
這些公司的實踐,讓大家對各類非結(jié)構(gòu)化數(shù)據(jù)的處理難題重拾信心,對于圖像、視頻、音頻等數(shù)據(jù)的處理技術(shù)也駛上了快車道。
面對大量非結(jié)構(gòu)化數(shù)據(jù),首先要給這些數(shù)據(jù)建模,從傳統(tǒng)的分析手段,加上小波分析、協(xié)同過濾、機器學(xué)習(xí)等大量的復(fù)雜分析手段,為這些數(shù)據(jù)建立一個好的回歸模型,這樣才能根據(jù)這些數(shù)據(jù)進行預(yù)測,幫助企業(yè)優(yōu)化商業(yè)解決方案,幫助銀行進行客戶風(fēng)險管理,幫助廣告商進行精準營銷。
谷歌公司首席經(jīng)濟學(xué)家哈爾·范里安(Hal Varian)曾“不開玩笑”地表示,在這個幾乎一切都能被監(jiān)控和測算的年代,“未來十年里,統(tǒng)計學(xué)家將會是最性感的職業(yè)。”
芮祥麟說,他們現(xiàn)在已經(jīng)可以幫助銀行對于特定客戶制作360度視圖,讓銀行全面了解這一客戶的狀態(tài)。他們還為一家亞洲較大的股票交易所建立了復(fù)雜事件處理模型,通過實時分析交易數(shù)據(jù),預(yù)測可能發(fā)生的問題,為制造企業(yè)進行預(yù)測性維修,通過分析設(shè)備的歷史數(shù)據(jù),分析可能出現(xiàn)的問題的部位,還可以為醫(yī)生進行快速 CT診斷。
在芮祥麟看來,其實大數(shù)據(jù)并不神秘,只是由于過去許多知識、經(jīng)驗的積累到了今天,讓人們具有了利用這些數(shù)據(jù)進行預(yù)測的能力。當然也不必迷信大數(shù)據(jù),它所能提供的,更多的是一種趨勢的預(yù)測,是一種幾率。
數(shù)據(jù)分析的及時性,在很多情況下比精確性更加重要。關(guān)鍵是“預(yù)測趨勢”。沃爾瑪?shù)睦麧櫤托l(wèi)星圖片有什么關(guān)系?正是因為瑞銀需要更準確的預(yù)判企業(yè)的盈利狀態(tài),除了傳統(tǒng)的方法,瑞銀還購買了衛(wèi)星圖片數(shù)據(jù),從中獲得沃爾瑪停車場的數(shù)據(jù),以此作為模型的一個維度。
可以說大數(shù)據(jù)的關(guān)鍵價值,就是獲取信息優(yōu)勢。大數(shù)據(jù)的核心能力,就是發(fā)現(xiàn)規(guī)律、預(yù)測未來。
對于從事地理信息系統(tǒng)的超圖軟件來說,他們所針對的地理信息本身就是由大量的非結(jié)構(gòu)化數(shù)據(jù)組成。超圖軟件副總裁王康泓告訴財新記者,地理信息越來越廣義化,包括衛(wèi)星信息、無人機測繪信息、雷達遙感信息等,而不是局限于傳統(tǒng)的測繪信息,這在技術(shù)上提出了更高的要求,需要云計算技術(shù)、移動計算技術(shù)。
當然大量的信息也帶來了商業(yè)模式的創(chuàng)新。目前地理空間分析成了空間規(guī)劃選址必不可少的部分,地理因子、氣象因子映射到農(nóng)產(chǎn)品價格、期貨價格上,也要借助地理空間分析。目前流行的GBI(地理商業(yè)智能)概念,也是借助于地理空間大數(shù)據(jù)。
“孕育的產(chǎn)業(yè)太多了。”王康泓說,包括產(chǎn)品和服務(wù)保障、咨詢和決策支持,業(yè)內(nèi)都在積極探索,進行技術(shù)儲備。
IBM 大中華區(qū)電信行業(yè)事業(yè)部總監(jiān)丁佐治博士對財新記者說,目前網(wǎng)絡(luò)的大數(shù)據(jù)采集已經(jīng)精細到了用戶觀看視頻的等待時間、等待次數(shù),來自電信運營商的位置信息已經(jīng)被保險公司用于評估司機的風(fēng)險,可以說現(xiàn)在各行各業(yè)沒有不被大數(shù)據(jù)映射的,關(guān)鍵在于要倒著想問題,以用戶為中心,而不再是以生產(chǎn)者為中心。
誰來規(guī)范大數(shù)據(jù)
伴隨著大數(shù)據(jù)時代來臨,數(shù)字化生存才會真正實現(xiàn)。網(wǎng)絡(luò)和數(shù)字化生活一方面給人帶來方便,也使得犯罪分子更容易獲得關(guān)于人的信息,也有了更多不易被追蹤和防范的犯罪手段,可能會出現(xiàn)更高明的騙局,也就是說大數(shù)據(jù)已經(jīng)把你出賣了。
能否避免“被大數(shù)據(jù)”,恐怕很難。糜萬軍介紹,在美國AOL曾經(jīng)做過一次實驗,只根據(jù)某個人的搜索記錄,就可以把這個人叫什么名字,住在哪都找出來??梢哉f只要上網(wǎng)就會留下痕跡,只要留下的痕跡足夠多,大數(shù)據(jù)技術(shù)對這個人的描述就足夠清晰。
顏陽說,大數(shù)據(jù)時代,完全的隱私是不存在的。一旦進入了互聯(lián)網(wǎng),解決隱私問題就有相當?shù)碾y度,如果不進互聯(lián)網(wǎng),又容易被邊緣化。
一位網(wǎng)上商城的技術(shù)負責(zé)人告訴財新記者,為了進行精準營銷,他們不僅要分析用戶在網(wǎng)站內(nèi)的活動,還需要用戶的站外活動信息,而這些信息可以從各大門戶網(wǎng)站買到。
中關(guān)村大數(shù)據(jù)交易平臺技術(shù)副總監(jiān)徐將對財新記者說,只要用戶使用網(wǎng)絡(luò),就沒有絕對的隱私。而只要數(shù)據(jù)有價值,就有買賣。在北京,每年房地產(chǎn)數(shù)據(jù)的地下交易額高達6億元,20G的在線支付網(wǎng)站數(shù)據(jù),標價數(shù)十萬元到上百萬元。