大數(shù)據(jù)已經(jīng)滲透進(jìn)人們生活的方方面面,比如商店促銷決策、政治活動指引等等。究竟大數(shù)據(jù)目前發(fā)展?fàn)顩r如何?51CTO專訪大數(shù)據(jù)專家鄭瑋將為您講述大數(shù)據(jù)之道。
專訪視頻專題,請訪問《坐看大數(shù)據(jù)之道》
NoSQL與大數(shù)據(jù)
NoSQL最早出現(xiàn)時,主要是Twitter這些社交媒體網(wǎng)站在用。因為他們需要處理每時每刻用戶上傳的海量圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)概念提出之后,由于其在非結(jié)構(gòu)化數(shù)據(jù)方面的優(yōu)勢,迅速融入大數(shù)據(jù)整體平臺。
HBase在大數(shù)據(jù)平臺發(fā)展較快
為什么之前XML數(shù)據(jù)庫沒有成功?NoSQL的數(shù)據(jù)反而成功了?鄭瑋提到NoSQL給了大家一個平臺,可以用通用的技術(shù)去找數(shù)據(jù),也可以去搜索那個數(shù)據(jù)。優(yōu)點的地方應(yīng)該是可以很快地去尋找你要找的東西,就是在很大的數(shù)據(jù)量里面能夠拿出你想看到的東西。你的數(shù)據(jù)可以是各種各樣形式的,不一定是一行一行結(jié)構(gòu)化數(shù)據(jù)。
在這之前,你要用數(shù)據(jù)庫的話需要知道你每個數(shù)據(jù)、每個數(shù)據(jù)都是什么意思,比如你的姓名、你的地址,你要先把這些東西講好之后才能放到數(shù)據(jù)庫。但是很多時候你根本不知道收到的數(shù)據(jù)是什么東西,也許有地址,也許有名字,也許有其它東西。但是我都不知道,你還是可以把它放到NoSQL里去,然后在分析的時候慢慢地決定這個是名字,這個是地址,這個是其它的信息,這是一種很不同的分析方法,你不一定要知道數(shù)據(jù)里到底有什么東西,你可以先存儲,然后再用它的平臺去尋找你要知道的東西,然后再說這個數(shù)據(jù)到底是什么意思。
這就是大數(shù)據(jù)和NoSQL完美結(jié)合的地方。不用預(yù)先定義數(shù)據(jù)形式,根據(jù)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,正是大數(shù)據(jù)的強(qiáng)項所在。面對紛繁復(fù)雜的數(shù)據(jù)來源,傳統(tǒng)關(guān)系型數(shù)據(jù)的能力受到了限制。
奧巴馬:大數(shù)據(jù)時代的第一任美國總統(tǒng)
民主黨的克林頓總統(tǒng)開啟了美國信息高速公路計劃,在其任期內(nèi)實現(xiàn)了IT技術(shù)的一次飛躍。而2012年的美國大選,大數(shù)據(jù)技術(shù)成就了另一位民主黨候選人——奧巴馬。
51CTO編輯推薦:大數(shù)據(jù)時代的總統(tǒng)選舉
在大數(shù)據(jù)分析技術(shù)的幫助下,奧巴馬競選團(tuán)隊可以從Twitter、Facebook等社交媒體中篩選出更有針對性的競選廣告投放點。比如在幕后支持巴拉克?奧巴馬獲取勝利的數(shù)據(jù)處理團(tuán)隊注意到,喬治?克魯尼在西岸對40-49歲的女性粉絲有莫大吸引力,這個群體無疑是為了在好萊塢與克魯尼——以及奧巴馬共進(jìn)晚餐而最愿意掏錢的一支人群。(譯注:5月10日,喬治?克魯尼為奧巴馬舉辦籌資聚會,當(dāng)晚籌得競選連任資金1500萬美元。)
而專訪中,鄭瑋女士也談到大數(shù)據(jù)是如何預(yù)測美國大選結(jié)果的。比如美國就有一個人叫做Nicksour,這次就是因為預(yù)測總統(tǒng)選舉出名了。他本身就是一個數(shù)據(jù)科學(xué)家,他做的是把所有那些關(guān)系全局的數(shù)據(jù)拿出來,然后去做大數(shù)據(jù)平臺分析。這次就是100%地把總統(tǒng)選舉都算出來了,在奧巴馬還沒有當(dāng)選的時候他就已經(jīng)知道奧巴馬會贏。而且他知道50個州里哪個州會選他,哪個州不會選他,一直到多少百分比都算出來了。
熱熱鬧鬧的美國大選,成為大數(shù)據(jù)第一次嶄露頭角的舞臺。不論是前期競選策略決定,還是后期的選情走向分析,都可以看到大數(shù)據(jù)的巨大力量。而政治活動的投入產(chǎn)出計算,其實也是一種“另類”的商業(yè)決策。
雙11,大數(shù)據(jù)助力商業(yè)決策
上面美國大選的例子可以歸納到政治生活,而下面談到的將是更具吸引力的商業(yè)決策。在2012年11月11日,中國網(wǎng)民守在電腦前翹首期待“光棍節(jié)”來臨時,商家已經(jīng)開始考慮使用大數(shù)據(jù)來指引自己的促銷活動了。
鄭瑋女士給大家舉了一個自己身邊的例子。在美國黑色星期五大促銷的日子里,她的一個單身女性朋友就經(jīng)常收到買男士西裝或者男性物品的促銷單。這對于商家和消費(fèi)者來說根本沒有用處,雙方都收到了無效的信息。
而通過大數(shù)據(jù)分析,商家就會知道怎么去分析。比如你是25-30歲的女性,你喜歡早上去上班有一輛車,另一輛車是你在度假的時候用的,可以把這些數(shù)據(jù)儲藏起來,然后用大數(shù)據(jù)的平臺,比如用Hadoop、NoSQL Analyse,可以幫助你做一些分析,也可以寄給你很有針對性的訂單,比如50%是你最喜歡的牌子,或者你最喜歡的產(chǎn)品?,F(xiàn)在的大數(shù)據(jù)是很普遍化了,不僅僅是針對一些很復(fù)雜的問題,每天生活上所有的事情當(dāng)中都可以看到大數(shù)據(jù)的應(yīng)用。