我們尚無(wú)法確定萬(wàn)物是否皆數(shù),但是,在移動(dòng)互聯(lián)網(wǎng)時(shí)代,人類(lèi)至少已經(jīng)推開(kāi)了這樣一扇大門(mén):通過(guò)對(duì)海量大數(shù)據(jù)的高效分析獲得商業(yè)以及社會(huì)價(jià)值。大數(shù)據(jù)為移動(dòng)互聯(lián)網(wǎng)帶來(lái)了新的價(jià)值,也為邁向物聯(lián)網(wǎng)奠定了基礎(chǔ)。
一個(gè)數(shù)據(jù)分析師以“指揮家”的模樣出現(xiàn)在舞臺(tái)上。隨著他手臂的有力揮舞,一串串?dāng)?shù)據(jù)被馴服了。他游刃有余,但數(shù)據(jù)越來(lái)越多,來(lái)勢(shì)越來(lái)越兇猛。他有點(diǎn)吃力,他左右搖擺,他手忙腳亂!一陣巨浪打過(guò)來(lái),他站立的地方猶如一葉扁舟覆沒(méi)在數(shù)據(jù)的海洋……
同樣的場(chǎng)景,另一個(gè)分析師出現(xiàn)了,還是那揮舞的手臂,還是海量的數(shù)據(jù)撲面而來(lái),但他駕輕就熟,鎮(zhèn)定自如地指揮著,仿佛那不是雜亂無(wú)章的數(shù)據(jù),而是音樂(lè)大師譜寫(xiě)的傳世樂(lè)章。
2012年7月13日,在亮馬河大廈的“大數(shù)據(jù)世界論壇”上,SAS公司首席咨詢顧問(wèn)張磊博士在演講前,播放了這么一段激動(dòng)人心的視頻。全場(chǎng)為之雷動(dòng)。
移動(dòng)互聯(lián)網(wǎng)迎來(lái)了大數(shù)據(jù)
“這是像我這樣的數(shù)據(jù)人最為激動(dòng)人心的時(shí)刻,因?yàn)閿?shù)據(jù)庫(kù)、大數(shù)據(jù)已經(jīng)成為變革的中心,事實(shí)上可以成為一場(chǎng)革命,在IT領(lǐng)域、制造業(yè)、零售業(yè)、政府管理、科技,大數(shù)據(jù)改變了整個(gè)世界的運(yùn)行方式。因此,我們稱之為大數(shù)據(jù)的新世界。”
孫博凱仿佛還沉浸在剛才的氛圍中。他是微軟亞太研發(fā)集團(tuán)首席技術(shù)官。孫博凱說(shuō),推動(dòng)大數(shù)據(jù)變革的有幾大因素,比如價(jià)格低廉的存儲(chǔ)和云計(jì)算能力,比如“大家都意識(shí)到的移動(dòng)設(shè)備的爆炸,每個(gè)人都有一個(gè)或者一個(gè)以上的移動(dòng)設(shè)備,現(xiàn)在全世界的移動(dòng)設(shè)備用戶可能已經(jīng)達(dá)到了55億。”而且,“這不僅僅關(guān)乎到網(wǎng)絡(luò)用戶,還關(guān)乎到傳感器,我們預(yù)計(jì)會(huì)有100億的傳感器連到網(wǎng)絡(luò)上,這一切都為我們帶來(lái)了大數(shù)據(jù)的新變革。”
也就是說(shuō),譜寫(xiě)這數(shù)字音符的,不是舒伯特、莫扎特,而是移動(dòng)互聯(lián)網(wǎng)時(shí)代的每一個(gè)網(wǎng)民以及每一臺(tái)智能手機(jī)、電腦、傳感器。而大數(shù)據(jù)也就是由此產(chǎn)生的有別于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),或者說(shuō),傳統(tǒng)技術(shù)無(wú)法分析出有價(jià)值的結(jié)果的數(shù)據(jù)。它占到了全部數(shù)據(jù)總量的85%。
對(duì)于大數(shù)據(jù)的來(lái)源,英特爾行業(yè)合作與解決方案部中國(guó)區(qū)總監(jiān)凌琦換了一種更為簡(jiǎn)潔的說(shuō)法,除了社交網(wǎng)絡(luò)及傳統(tǒng)的商業(yè)領(lǐng)域“人跟人交易、人跟人溝通”所產(chǎn)生的數(shù)據(jù)之外,“還有一類(lèi)是機(jī)器和機(jī)器、現(xiàn)有智能設(shè)備網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),這個(gè)數(shù)量會(huì)更大,而互聯(lián)網(wǎng)走向物聯(lián)網(wǎng)這條路是必然趨勢(shì),隨著時(shí)間的增長(zhǎng),大家會(huì)看到物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)會(huì)更多”。
凌琦說(shuō),全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB的主要增長(zhǎng)來(lái)源,就是大數(shù)據(jù)。
與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有以下四個(gè)典型特征,即多樣性(variety)、體量(volume)、速度(velocity)以及價(jià)值(value),也就是說(shuō),它集結(jié)構(gòu)復(fù)雜、體量龐大和快速處理于一身,并最終產(chǎn)生巨大的商業(yè)和社會(huì)價(jià)值。
就像ForresterResearch資深分析師曹宇欽說(shuō)的那樣,大數(shù)據(jù)并非全新技術(shù),“大數(shù)據(jù)最主要是幫助企業(yè)對(duì)現(xiàn)有的數(shù)據(jù)、已經(jīng)產(chǎn)生的數(shù)據(jù)做一些整合,相應(yīng)地做少量的投入而得到更大的回報(bào)”。我們甚至還可以說(shuō),傳統(tǒng)互聯(lián)網(wǎng)也產(chǎn)生了很多大數(shù)據(jù),但是,移動(dòng)互聯(lián)網(wǎng)的蓬勃發(fā)展、云計(jì)算以及物聯(lián)網(wǎng)的初步應(yīng)用,有力地推進(jìn)了大數(shù)據(jù)時(shí)代的來(lái)臨,這是毋庸置疑的。
大數(shù)據(jù)分析的難點(diǎn)
設(shè)想你在京東商城或者亞馬遜訂了一件商品,那么機(jī)器就會(huì)將你的ID號(hào)碼、送貨地址、手機(jī)、電話、電子郵件以及收貨時(shí)間等等全部記錄下來(lái)。如果你提交了物品評(píng)論,或者和好友在微博上進(jìn)行了分享,同樣,也會(huì)被記錄下來(lái)。
洞察這一切,就意味著夢(mèng)寐以求的商機(jī)。
故而,孫博凱斷言:“兩家公司,有一家公司利用大數(shù)據(jù)技術(shù)而另一家卻沒(méi)有采用,那么,未來(lái)它們的財(cái)務(wù)狀況會(huì)出現(xiàn)明顯的不同,大數(shù)據(jù)已經(jīng)成為了保持企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的競(jìng)爭(zhēng)力。”
他說(shuō),在微軟看來(lái),大數(shù)據(jù)意味著管理大數(shù)據(jù)端到端的生命周期,“管理數(shù)據(jù),如何獲取、存儲(chǔ)、保護(hù)安全數(shù)據(jù);下一步,如何保護(hù)你的數(shù)據(jù),如何清潔、發(fā)現(xiàn)相關(guān)的數(shù)據(jù),如何將其他的數(shù)據(jù)與其連接起來(lái);最后,如何在數(shù)據(jù)中獲得洞察力。”
但問(wèn)題是,對(duì)大數(shù)據(jù)的分析卻并非易事。
凌琦認(rèn)為,傳統(tǒng)的存儲(chǔ)結(jié)構(gòu)需要升級(jí)為擴(kuò)展性的存儲(chǔ)架構(gòu),否則無(wú)法適應(yīng)現(xiàn)有的大數(shù)據(jù)存儲(chǔ),同時(shí),對(duì)于分布式的文件系統(tǒng)的支撐之后,需要進(jìn)行實(shí)時(shí)的流處理,而“傳統(tǒng)的數(shù)據(jù)分析更多的是結(jié)構(gòu)化,數(shù)據(jù)量是有限的,集中式處理、批量處理,也無(wú)法滿足需要。”
賽仕軟件研究開(kāi)發(fā)(北京)有限公司總經(jīng)理劉政說(shuō),在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的手段是關(guān)鍵,“但是傳統(tǒng)的數(shù)據(jù)分析能力,無(wú)法處理這么大量的數(shù)據(jù)。我們平常分析上千萬(wàn)的數(shù)據(jù)量的時(shí)候,都會(huì)花費(fèi)幾十個(gè)小時(shí)的時(shí)間才能得到結(jié)果。當(dāng)你的數(shù)據(jù)量達(dá)到十億的時(shí)候,軟件就根本運(yùn)行不下去,有的時(shí)候會(huì)花上好幾十天,這個(gè)速度人們是無(wú)法接受的。”
他列舉了一些傳統(tǒng)的分析技術(shù)帶來(lái)的困惑。比如,由于分析手段的限制,取樣時(shí)的樣本數(shù)不夠大,不能充分利用所有的數(shù)據(jù),無(wú)形中破壞了信息的完整性;又比如,受限于分析能力而無(wú)法獲取復(fù)雜問(wèn)題的答案,受限于時(shí)間而不得不采用某項(xiàng)簡(jiǎn)單的建模技術(shù),同樣,也是由于沒(méi)有足夠的時(shí)間來(lái)執(zhí)行多次迭代,你不得不對(duì)模型凈度進(jìn)行妥協(xié)等等。
劉政說(shuō),上世紀(jì)50年代,美國(guó)飛行員發(fā)現(xiàn),在跟敵人作戰(zhàn)的時(shí)候通過(guò)OODA方法就可以有效地贏得戰(zhàn)爭(zhēng),也就是說(shuō),“如果你的決策比你的對(duì)手快,你就能夠占得先機(jī)”。
速度在這里被提到了戰(zhàn)略高度。對(duì)大數(shù)據(jù)的分析,也同樣如此。
品友互動(dòng)是中國(guó)最大的數(shù)字廣告互聯(lián)網(wǎng)技術(shù)公司,率先在廣告技術(shù)領(lǐng)域采用大數(shù)據(jù)研究方法,搭建了多個(gè)以Hadoop為基礎(chǔ)的云計(jì)算平臺(tái)。品有互動(dòng)CEO黃曉南在接受《網(wǎng)絡(luò)導(dǎo)報(bào)》記者專訪時(shí)說(shuō),作為國(guó)內(nèi)最大的需求方平臺(tái)(DSP),品友互動(dòng)每天處理上百億的數(shù)據(jù)量,其DSP平臺(tái)可以對(duì)接廣告交易平臺(tái)(AdExchange)進(jìn)行實(shí)時(shí)競(jìng)價(jià)和智能算法,50毫秒內(nèi)完成響應(yīng)。
可見(jiàn),沒(méi)有速度,再有價(jià)值的大數(shù)據(jù)也只能是一堆無(wú)法流通的鈔票。